Comprender la automatización de voz
Introducción
La automatización de la voz permite a las organizaciones gestionar las llamadas telefónicas entrantes sin necesidad de que un agente humano responda a cada llamada. Contiene toda una gama de soluciones, desde sencillos sistemas de menús que dirigen a los llamantes al departamento adecuado hasta agentes de IA totalmente conversacionales que comprenden el lenguaje natural y conservan el contexto. Todas estas soluciones se basan en flujos de llamadas programables que reaccionan a las entradas del usuario, ya sea a través de la voz o de la selección del teclado.
Esta guía explica los conceptos clave de la automatización de voz con Voice API de Vonage, describe tres enfoques de implementación y te ayuda a seleccionar el adecuado para tus necesidades.
IVR sencillo
En Respuesta de voz interactiva (IVR) automatiza las interacciones telefónicas ofreciendo a los interlocutores un menú de opciones. Cuando la persona que llama marca un número, oye una indicación del tipo: Por favor, introduzca un dígito o diga algo. El sistema responde en función de sus datos.
Los IVR tradicionales dependen del teclado (DTMF), que se refiere a los tonos generados cuando una persona que llama pulsa las teclas de su teléfono. Las implementaciones modernas de IVR pueden aceptar respuestas habladas además de la entrada de teclado.
IVR avanzado / Bot de voz
En IVR avanzado / Bot de voz puede soportar la comprensión del lenguaje natural cuando integras un NLU/LLM en tu aplicación. Por ejemplo, una persona que llama puede decir ¿Por qué el cielo es azul? y su aplicación puede interpretar la intención, hacer preguntas de seguimiento y resolver el problema o dirigir a la persona que llama al equipo adecuado, manteniendo el contexto de la conversación. Este enfoque suele utilizar webhooks para controlar el flujo de llamadas.
Agente de voz AI
En Agente de voz AI es un asistente inteligente que maneja llamadas telefónicas, escucha a los usuarios mediante el reconocimiento automático de voz (ASR), procesa solicitudes con un modelo de lenguaje amplio (LLM) y responde con texto a voz de sonido natural en tiempo real cuando integras estas capacidades en tu aplicación. Con la Voice API de Vonage, esto se implementa comúnmente usando la transmisión de audio WebSocket para una baja latencia, lo que puede ayudarte a implementar experiencias como el barge-in.
Webhooks HTTP vs. Streaming WebSocket
Estos enfoques se implementan comúnmente utilizando dos patrones: webhooks HTTP o streaming WebSocket.
Webhooks HTTPVonage Voice API: la Voice API de Vonage envía solicitudes HTTP a tu aplicación a medida que la llamada progresa. Tu aplicación devuelve un NCCO (Objeto de control de llamada) para indicarle a Vonage qué hacer a continuación. Esto se utiliza comúnmente en IVR sencillo y IVR avanzado / Bot de voz guías.
Streaming WebSocket: una conexión dúplex completa y persistente entre tu aplicación y la plataforma de voz de Vonage. Se utiliza en la Agente de voz AI para implementaciones de baja latencia, que puede ayudarle a implementar experiencias como el barge-in. Para más información, consulte WebSockets en la Voice API de Vonage.
También puede combinar ambos modelos en una única solución.
Elección del enfoque
Las capacidades que se indican a continuación describen lo que puede ofrecer una implementación típica (su aplicación y los proveedores de IA elegidos), no las funciones integradas de Voice API.
| IVR sencillo | IVR avanzado / Bot de voz | Agente de voz AI | |
|---|---|---|---|
| Lo mejor para | Interacciones predecibles de gran volumen | Conversaciones complejas de varios turnos | Experiencias en tiempo real y sensibles a la latencia |
| Tipo de entrada | Teclado (DTMF) + entrada de voz | Habla en lenguaje natural | Habla en lenguaje natural |
| Puede soportar lenguaje natural (con NLU/LLM) | |||
| Puede mantener el contexto de la conversación (en su aplicación) | |||
| Latencia de respuesta | Estándar (webhook HTTP) | Estándar (webhook HTTP) | Bajo (WebSocket streaming) |
| Ejemplo de aplicación |
Lecturas complementarias
Explore las siguientes guías prácticas para aprender a implantar las soluciones tratadas en esta guía:
- IVR sencillo: Cree un flujo de llamadas programable que capture tanto las entradas de teclado como las de voz, formando la base de cualquier solución de automatización de voz.
- IVR avanzado / Bot de voz: Desarrollar un bot de voz conversacional impulsado por OpenAI. Maneja el lenguaje natural, mantiene el contexto de la conversación y transfiere a un agente humano cuando es necesario.
- Agente de voz AI: Construye un agente de voz de IA en tiempo real utilizando WebSocket streaming y la plataforma Voice Agent de Deepgram.