Sprachautomatisierung verstehen

Einführung

Sprachautomatisierung ermöglicht es Unternehmen, eingehende Telefonanrufe zu verwalten, ohne dass ein menschlicher Mitarbeiter jeden Anruf entgegennehmen muss. Sie umfasst eine Reihe von Lösungen, von einfachen Menüsystemen, die Anrufer an die entsprechende Abteilung weiterleiten, bis hin zu vollständig konversationsfähigen KI-Agenten, die natürliche Sprache verstehen und den Kontext beibehalten. Alle diese Lösungen basieren auf programmierbaren Anrufabläufen, die auf Benutzereingaben reagieren, sei es durch Spracheingabe oder Auswahl über die Tastatur.

Dieser Leitfaden erläutert die wichtigsten Concepts der Sprachautomatisierung mit der Vonage Voice API, stellt drei Implementierungsansätze vor und hilft Ihnen bei der Auswahl des richtigen Ansatzes für Ihre Anforderungen.

Einfache IVR

Eine Interaktive Sprachausgabe (IVR) System automatisiert Telefongespräche, indem es dem Anrufer ein Menü mit Optionen anbietet. Wenn ein Anrufer eine Nummer wählt, hört er eine Aufforderung wie: Bitte geben Sie eine Ziffer ein oder sagen Sie etwas. Das System reagiert auf der Grundlage ihrer Eingaben.

Traditionelle IVRs hängen von der Tastatur ab (DTMF) Eingabe, die sich auf die Töne bezieht, die erzeugt werden, wenn ein Anrufer Tasten auf seinem Telefon drückt. Moderne IVR-Implementierungen können zusätzlich zur Tastatureingabe auch gesprochene Antworten akzeptieren.

Erweiterte IVR / Voice Bot

Eine Erweiterte IVR / Voice Bot kann das Verstehen natürlicher Sprache unterstützen, wenn Sie eine NLU/LLM in Ihre Anwendung integrieren. Zum Beispiel kann ein Anrufer sagen Warum ist der Himmel blau? und Ihre Anwendung kann die Absicht interpretieren, Folgefragen stellen und entweder das Problem lösen oder den Anrufer an das zuständige Team weiterleiten, wobei der Kontext des Gesprächs erhalten bleibt. Bei diesem Ansatz werden in der Regel Webhooks zur Steuerung des Anrufablaufs verwendet.

AI-Sprachagent

Eine AI-Sprachagent ist ein intelligenter Assistent, der Telefonanrufe abwickelt, Benutzern mit automatischer Spracherkennung (ASR) zuhört, Anfragen mit einem Large Language Model (LLM) verarbeitet und mit natürlich klingender Text-to-Speech-Sprache in Echtzeit antwortet, wenn Sie diese Funktionen in Ihre Anwendung integrieren. Mit der Vonage Voice API wird dies üblicherweise mit WebSocket-Audiostreaming für niedrige Latenzzeiten implementiert, was Ihnen helfen kann, Erfahrungen wie Barge-in zu implementieren.

HTTP-Webhooks vs. WebSocket-Streaming

Diese Ansätze werden in der Regel nach zwei Mustern umgesetzt: HTTP-Webhooks oder WebSocket-Streaming.

HTTP-Webhaken: Die Vonage Voice API sendet HTTP-Anfragen an Ihre Anwendung, während der Anruf läuft. Ihre Anwendung gibt eine NCCO (Objekt zur Anrufsteuerung) um Vonage mitzuteilen, was als nächstes geschehen soll. Dies wird üblicherweise verwendet in Einfache IVR und Erweiterte IVR / Voice Bot Führer.

WebSocket-Streaming: eine dauerhafte Vollduplex-Verbindung zwischen Ihrer Anwendung und der Vonage Voice-Plattform. Dies wird verwendet in der AI-Sprachagent Leitfaden für Implementierungen mit geringer Latenz, der Ihnen bei der Implementierung von Erlebnissen wie Barge-in helfen kann. Für Details, siehe WebSockets in der Vonage Voice API.

Sie können auch beide Muster in einer einzigen Lösung kombinieren.

Die Wahl des Ansatzes

Die nachstehenden Funktionen beschreiben, was eine typische Implementierung bieten kann (Ihre Anwendung und die ausgewählten KI-Anbieter), nicht die integrierten Funktionen der Voice API.

	Einfache IVR	Erweiterte IVR / Voice Bot	AI-Sprachagent
Am besten für	Hochvolumige, vorhersehbare Interaktionen	Komplexe, vielschichtige Gespräche	Echtzeit-Erlebnisse, die auf Latenzzeiten reagieren
Art der Eingabe	Tastenfeld (DTMF) + Spracheingabe	Natürliche Sprache	Natürliche Sprache
Kann natürliche Sprache unterstützen (mit NLU/LLM)
Kann den Gesprächskontext aufrechterhalten (in Ihrer Anwendung)
Latenzzeit der Antwort	Standard (HTTP-Webhook)	Standard (HTTP-Webhook)	Niedrig (WebSocket-Streaming)
Die Beispielimplementierung verwendet		OpenAI	Deepgram

Weitere Lektüre

In den folgenden Anleitungen erfahren Sie, wie Sie die in diesem Leitfaden beschriebenen Lösungen implementieren können:

Einfache IVR: Erstellen Sie einen programmierbaren Anrufablauf, der sowohl Tastatureingaben als auch Spracheingaben erfasst und die Grundlage für jede Sprachautomatisierungslösung bildet.
Erweiterte IVR / Voice Bot: Entwickeln Sie einen sprachgesteuerten Bot auf der Basis von OpenAI. Er verarbeitet natürliche Sprache, behält den Gesprächskontext bei und leitet bei Bedarf an einen menschlichen Agenten weiter.
AI-Sprachagent: Erstellen Sie einen KI-Sprachagenten in Echtzeit mit WebSocket-Streaming und der Voice-Agent-Plattform von Deepgram.