https://a.storyblok.com/f/270183/31461/dfcc0f59e2/voiceapi_amazon-comprehend_1200x600.png

Tony ChanIngénieur solutions senior

Ingénieur en solutions clients chez Vonage. Fort d'une expérience en gestion de produits, en exploitation de réseaux et de systèmes, en assistance à la clientèle, en assurance qualité et en gestion d'équipe de développement de logiciels, Tony travaille dans l'industrie des télécommunications, d'abord en France, puis aux États-Unis. Il aide les grandes et petites entreprises internationales à développer des solutions utilisant des services programmables de voix, de messagerie, de vidéo et d'authentification multifactorielle.

Traiter les appels Voice avec Amazon Transcribe & Comprehend

Publié le May 12, 2021

#python

#aws

#voice-api

Temps de lecture : 3 minutes

Dans ce tutoriel, nous vous guiderons dans la mise en place d'une connexion de référence Amazon Transcribe & Comprehend. Nous vous guiderons également dans la mise en place d'un exemple d'application utilisant l'API Voice de Vonage qui permettra à un appelant de se connecter avec un autre interlocuteur par le biais de la plateforme Vonage. L'appel recevra alors une transcription séparée en temps réel avec une analyse des sentiments pour le discours de chaque partie en connectant des WebSockets à la connexion de référence.

Les plateformes AWS AI offrent des capacités avancées, notamment le moteur de transcription Amazon Transcribe et le moteur d'analyse des sentiments Amazon Comprehend.

Ce tutoriel vous guidera dans la mise en place d'une connexion de référence Amazon Transcribe & Comprehend et d'un exemple d'application utilisant l'API Voice de Vonage.

Cet exemple d'application permettra à une partie d'appeler un numéro de téléphone sur la plateforme Vonage, qui appellera une autre partie. Les deux interlocuteurs se parlent et le flux audio de chacun est envoyé via une WebSocket à la connexion de référence pour une transcription en temps réel. Les transcriptions sont ensuite envoyées à la connexion de référence pour une analyse des sentiments en temps réel.

Chaque partie dispose d'une transcription en temps réel et d'une analyse des sentiments distinctes. Dans cet exemple d'application, il y a deux participants à la conférence téléphonique. La transcription séparée et l'analyse des sentiments fonctionneraient de la même manière pour un plus grand nombre de participants à une conférence téléphonique.

Dans la première section, nous établirons la connexion de référence Amazon Transcribe & Comprehend, permettant le streaming audio en temps réel de la voix de chaque partie via une connexion WebSocket à partir de la plateforme Vonage. Les soumissions de morceaux audio, les transcriptions, les résultats de l'analyse des sentiments de/vers Amazon Transcribe & Amazon Comprehend sont effectués via des requêtes HTTP (sécurisées). Les transcriptions et les résultats de l'analyse du sentiment sont également transmis à l'application Voice API à l'aide de webhooks.

Dans la section suivante, nous allons mettre en place un exemple d'application qui utilise l Voice API de Vonage de Vonage pour effectuer les opérations suivantes :

Traiter un appel entrant
Appeler le deuxième interlocuteur
Établir un WebSocket pour chaque partie
Recevoir des transcriptions séparées pour chaque partie
Soumettre les transcriptions à l'analyse des sentiments
Recevoir des notes de sentiment distinctes pour les phrases du discours de chaque parti

Le diagramme ci-dessous donne un aperçu d'un exemple d'architecture d'intégration.

L'exemple d'application présenté dans cet article gère une conférence téléphonique avec deux parties se connectant via le RTPC (par exemple, un téléphone portable, un téléphone fixe, un téléphone VoIP, une extension PBX).

Example overview of a simple integration architecture

Configurer la connexion de référence Amazon Transcribe et Amazon Comprehend

Aller à https://github.com/nexmo-community/transcribe-comprehend-multi-sub,
Suivez les instructions décrites dans ce référentiel,
Sélectionnez l'un des types de déploiement comme expliqué dans la section Exécution de la connexion de référence de Transcribe et Comprehend de référence,
Notez le nom d'hôte public du serveur et le port (par ex. xxxx.ngrok.io, myserver.mycompany.com:40000ou <docker_host_name>:<proxy_port>), car ils seront nécessaires pour la section suivante "Configurer l'exemple d'application Voice API de Vonage" (en tant qu'argument du paramètre TRANSCRIBE_COMPREHEND_REFERENCE_CONNECTION).

Configurer l'exemple d'application API Voice de Vonage

Aller à https://github.com/nexmo-community/transcribe-comprehend-client,
Suivez les instructions décrites dans ce référentiel,
Sélectionnez l'un des types de déploiement expliqués dans la section Exécution de l'application client Transcribe & Comprehend de l'application cliente,
Notez le numéro de téléphone lié à votre application Voice API et le numéro de téléphone de l CALLEE_NUMBER comme expliqué dans la section Configurer les informations d'identification et le numéro de téléphone de votre application Voice API de Vonage car ils seront utilisés pour la section suivante "Test de l'application d'exemple".

Tester l'exemple d'application

Appelez le numéro de téléphone lié à votre application Voice API, vous entendrez le message suivant : "Veuillez patienter, nous connectons votre appel",
Partie avec numéro de téléphone CALLEE_NUMBER sera appelé, répondez à cet appel, vous entendrez "Nous vous mettons en relation avec l'appelant",
L'appelant et l'appelé peuvent désormais se parler,
Vous verrez sur la page Connexion de référence Transcribe and Comprehend ainsi que sur la console de l'application exemple d'application Voice API de Vonage de Vonage, les transcriptions et les scores de sentiment des phrases de chaque partie.