Comprendre l'automatisation vocale

Introduction

L'automatisation vocale permet aux organisations de gérer les appels téléphoniques entrants sans avoir besoin d'un agent humain pour répondre à chaque appel. Elle comprend un éventail de solutions, allant de simples systèmes de menus qui dirigent les appelants vers le service approprié à des agents d'intelligence artificielle entièrement conversationnels qui comprennent le langage naturel et conservent le contexte. Toutes ces solutions sont basées sur des flux d'appels programmables qui réagissent aux entrées de l'utilisateur, que ce soit par la parole ou par la sélection au clavier.

Ce guide explique les concepts clés de l'automatisation vocale avec l'API Voice de Vonage, présente trois approches de mise en œuvre et vous aide à choisir celle qui convient le mieux à vos besoins.

IVR simple

Un Réponse vocale interactive (RVI) automatise les interactions téléphoniques en proposant aux appelants un menu d'options. Lorsqu'un appelant compose un numéro, il entend une invite du type : Veuillez entrer un chiffre ou dire quelque chose. Le système réagit en fonction de leurs données.

Les SVI traditionnels dépendent d'un clavier (DTMF), c'est-à-dire les tonalités générées lorsqu'un appelant appuie sur les touches de son téléphone. Les implémentations modernes de SVI peuvent accepter des réponses vocales en plus des entrées au clavier.

IVR avancé / Voice Bot

Un IVR avancé / Voice Bot peut prendre en charge la compréhension du langage naturel lorsque vous intégrez un NLU/LLM dans votre application. Par exemple, un appelant peut dire Pourquoi le ciel est-il bleu ? et votre application peut interpréter l'intention, poser des questions de suivi et résoudre le problème ou diriger l'appelant vers l'équipe appropriée tout en conservant le contexte de la conversation. Cette approche utilise généralement des webhooks pour contrôler le flux d'appels.

Agent vocal AI

Un Agent vocal AI est un assistant intelligent qui gère les appels téléphoniques, écoute les utilisateurs à l'aide de la reconnaissance automatique de la parole (ASR), traite les demandes à l'aide d'un modèle de langage étendu (LLM) et répond par une synthèse vocale naturelle en temps réel lorsque vous intégrez ces capacités dans votre application. Avec l'API Voice de Vonage, ceci est généralement mis en œuvre en utilisant le flux audio WebSocket pour une faible latence, ce qui peut vous aider à mettre en œuvre des expériences telles que l'intrusion.

Crochets Web HTTP vs. flux WebSocket

Ces approches sont généralement mises en œuvre à l'aide de deux modèles : les webhooks HTTP ou les flux WebSocket.

Crochets Web HTTPApplications : l'API Voice Vonage envoie des requêtes HTTP à votre application au fur et à mesure que l'appel progresse. Votre application renvoie un NCCO (objet de contrôle d'appel) pour indiquer à Vonage ce qu'il doit faire ensuite. Cette fonction est couramment utilisée dans les cas suivants IVR simple et IVR avancé / Voice Bot guides.

Flux WebSocketApplications : une connexion persistante et en duplex intégral entre votre application et la plateforme Vonage Voice. Elle est utilisée dans le Agent vocal AI pour les implémentations à faible latence, ce qui peut vous aider à mettre en œuvre des expériences telles que l'intrusion. Pour plus de détails, voir WebSockets dans l'API Voice de Vonage.

Vous pouvez également combiner les deux modèles en une seule solution.

Choix de l'approche

Les capacités ci-dessous décrivent ce qu'une mise en œuvre typique peut fournir (votre application et les fournisseurs d'IA choisis), et non les fonctionnalités intégrées de l'API Voice.

	IVR simple	IVR avancé / Voice Bot	Agent vocal AI
Meilleur pour	Interactions prévisibles à haut volume	Conversations complexes à plusieurs tours	Expériences en temps réel, sensibles à la latence
Type d'entrée	Clavier (DTMF) + entrée vocale	Discours en langage naturel	Discours en langage naturel
Peut prendre en charge le langage naturel (avec NLU/LLM)
Peut maintenir le contexte de la conversation (dans votre application)
Temps de réponse	Standard (HTTP webhook)	Standard (HTTP webhook)	Faible (flux WebSocket)
L'exemple de mise en œuvre utilise		OpenAI	Deepgram

Pour en savoir plus

Consultez les guides pratiques suivants pour apprendre à mettre en œuvre les solutions présentées dans ce guide :

IVR simple: Créez un flux d'appels programmable qui capture à la fois les entrées clavier et vocales, constituant ainsi la base de toute solution d'automatisation vocale.
IVR avancé / Voice Bot: Développez un robot vocal conversationnel basé sur OpenAI. Il gère le langage naturel, maintient le contexte de la conversation, et transfère à un agent humain si nécessaire.
Agent vocal AI: Construire un agent vocal IA en temps réel en utilisant le streaming WebSocket et la plateforme Voice Agent de Deepgram.