
Teilen Sie:
Ingenieur für Kundenlösungen bei Vonage. Mit seinem Hintergrund in den Bereichen Produktmanagement, Netzwerk- und Systembetrieb, Kundensupport, Qualitätssicherung und Teamleiter für Softwareentwicklung ist Tony in der Telekommunikationsbranche tätig, früher in Frankreich und jetzt in den USA. Er unterstützt weltweit große und kleinere Unternehmen bei der Entwicklung von Lösungen mit programmierbaren Voice-, Messaging-, Video- und Multi-Faktor-Authentifizierungsdiensten.
Verarbeitung von Voice-Anrufen mit Amazon Transcribe & Comprehend
Lesedauer: 2 Minuten
In diesem Tutorial werden wir Sie durch die Einrichtung einer Amazon Transcribe & Comprehend Referenzverbindung führen. Wir führen Sie auch durch die Einrichtung einer Beispielanwendung mit Vonage Voice API, die es einem Anrufer ermöglicht, sich mit einem anderen Teilnehmer über die Vonage-Plattform zu verbinden. Der Anruf erhält dann eine separate Echtzeit-Transkription mit Stimmungsanalyse für die Sprache jeder Partei, indem WebSockets mit der Referenzverbindung verbunden werden.
Die AWS-KI-Plattformen bieten fortschrittliche Funktionen, darunter die Transkriptions-Engine Amazon Transcribe und die Sentiment-Analyse-Engine Amazon Comprehend.
Dieses Tutorial führt Sie durch die Einrichtung einer Amazon Transcribe & Comprehend Referenzverbindung und einer Beispielanwendung mit Vonage Voice API.
Diese Beispielanwendung ermöglicht es einem Teilnehmer, eine Telefonnummer auf der Vonage-Plattform anzurufen, die einen anderen Teilnehmer anruft. Beide Teilnehmer sprechen miteinander, wobei der Audiostrom jedes Teilnehmers über einen WebSocket an die Referenzverbindung zur Echtzeit-Transkription gesendet wird. Anschließend werden die Transkripte zur Echtzeit-Sentiment-Analyse an die Referenzverbindung gesendet.
Jeder Teilnehmer hat eine eigene Echtzeit-Transkription und Stimmungsanalyse. In dieser Beispielanwendung gibt es zwei Teilnehmer an der Telefonkonferenz. Die separate Transkription und Stimmungsanalyse würde für noch mehr Teilnehmer in einer Telefonkonferenz genauso funktionieren.
Im ersten Abschnitt werden wir die Amazon Transcribe & Comprehend Referenzverbindung einrichten, die ein Echtzeit-Audiostreaming der Stimme beider Parteien über einen WebSocket von der Vonage-Plattform. Die Übermittlung von Audioblöcken, Transkripten und Ergebnissen der Stimmungsanalyse an/von Amazon Transcribe & Amazon Comprehend erfolgt über (sichere) HTTP-Anfragen. Außerdem werden die Transkripte und Stimmungsbewertungen über Webhooks an die Voice API-Applikation zurückgesendet.
Im folgenden Abschnitt werden wir eine Beispielanwendung einrichten, die die Vonage Voice API verwendet, um Folgendes zu tun:
Einen eingehenden Anruf bearbeiten
Rufen Sie den zweiten Teilnehmer an
Einrichten eines WebSockets für jede Partei
Sie erhalten für jede Partei eine eigene Abschrift
Transkripte zur Stimmungsanalyse einreichen
Getrennte Stimmungsbewertungen der Redesätze jeder Partei erhalten
Vonage API-Konto
Um dieses Tutorial durchzuführen, benötigen Sie ein Vonage API-Konto. Wenn Sie noch keines haben, können Sie sich noch heute anmelden und mit einem kostenlosen Guthaben beginnen. Sobald Sie ein Konto haben, finden Sie Ihren API-Schlüssel und Ihr API-Geheimnis oben auf dem Vonage-API-Dashboard.
In diesem Lernprogramm wird auch eine virtuelle Telefonnummer verwendet. Um eine zu erwerben, gehen Sie zu Rufnummern > Rufnummern kaufen und suchen Sie nach einer Nummer, die Ihren Anforderungen entspricht.
Das folgende Diagramm zeigt einen Überblick über eine beispielhafte Integrationsarchitektur.
Die Beispielanwendung in diesem Artikel behandelt eine Telefonkonferenz mit zwei Teilnehmern, die über das öffentliche Telefonnetz verbunden sind (z. B. Mobiltelefon, Festnetztelefon, VoIP-Telefon, Nebenstelle der Telefonanlage).

Einrichten der Amazon Transcribe & Amazon Comprehend Referenzverbindung
Besuchen Sie https://github.com/nexmo-community/transcribe-comprehend-multi-sub,
Folgen Sie den Anweisungen, die in diesem Repository beschrieben sind,
Wählen Sie einen der Einsatztypen, wie im Abschnitt Ausführen von Transcribe und Comprehend Referenzverbindung Abschnitt erläutert wird,
Notieren Sie sich den öffentlichen Hostnamen und Port des Servers (z.B. xxxx.ngrok.io, myserver.mycompany.com:40000, oder
<docker_host_name>:<proxy_port>), da dies für den nächsten Abschnitt "Einrichten der Vonage Voice API Beispielanwendung" benötigt wird (als Argument des Parameters TRANSCRIBE_COMPREHEND_REFERENCE_CONNECTION).
Einrichten der Vonage Voice API-Beispielanwendung
Besuchen Sie https://github.com/nexmo-community/transcribe-comprehend-client,
Folgen Sie den Anweisungen, die in diesem Repository beschrieben sind,
Wählen Sie einen der Einsatztypen, wie im Abschnitt Ausführen der Transcribe & Comprehend Client-Anwendung Abschnitt erläutert,
Notieren Sie sich die Rufnummer, die mit die mit Ihrer Voice API Anwendung verknüpft ist und die CALLEE_NUMBER wie im Abschnitt Einrichten der Anmeldeinformationen und Telefonnummern für Ihre Vonage Voice API Anwendung erläutert wurden, da sie für den nächsten Abschnitt "Testen Sie die Beispielanwendung" herangezogen werden.
Testen Sie die Beispielanwendung
Rufen Sie die Rufnummer an, die die mit Ihrer Voice API-Anwendung verknüpft ist, hören Sie "Bitte warten, wir verbinden Ihren Anruf",
Teilnehmer mit Telefonnummer KALLEE_NUMMER angerufen wird, nehmen Sie den Anruf entgegen und Sie hören "Wir verbinden Sie mit dem Anrufer",
Sowohl der Anrufer als auch der Angerufene können nun miteinander sprechen,
Sie sehen auf der Seite Transcribe and Comprehend Referenzverbindung Anwendungskonsole als auch auf der Voice API-Beispielanwendung von Vonage Konsole die Transkripte und Stimmungsbewertungen der Sätze der einzelnen Teilnehmer.
Teilen Sie:
Ingenieur für Kundenlösungen bei Vonage. Mit seinem Hintergrund in den Bereichen Produktmanagement, Netzwerk- und Systembetrieb, Kundensupport, Qualitätssicherung und Teamleiter für Softwareentwicklung ist Tony in der Telekommunikationsbranche tätig, früher in Frankreich und jetzt in den USA. Er unterstützt weltweit große und kleinere Unternehmen bei der Entwicklung von Lösungen mit programmierbaren Voice-, Messaging-, Video- und Multi-Faktor-Authentifizierungsdiensten.
