Herramientas de IA de Vonage para crear agentes de IA en tiempo real en las API de voz y vídeo de Vonage

Muchos flujos de trabajo de IA, como la conversión de voz a texto, el análisis basado en LLM, la síntesis de voz y la percepción multimodal, dependen del audio y el vídeo en tiempo real. Los desarrolladores que trabajan con las Voice API y Video API de Vonage llevan mucho tiempo pidiendo una forma sencilla y fiable de recibir contenido multimedia de una sesión activa, procesarlo con IA y enviar respuestas.

Construir esta infraestructura desde cero, gestionando servidores WebSocket, tramas binarias de audio, frecuencias de muestreo, conexiones WebRTC y sesiones con estado, es complejo y propenso a errores. Ralentiza la experimentación, el desarrollo de pruebas de concepto y las implantaciones de producción.

Vonage resuelve esto con dos conjuntos de herramientas complementarias que eliminan esta fricción y permiten a los desarrolladores centrarse en lo que quieren construir. Estos conjuntos de herramientas son compatibles con una amplia gama de experiencias de IA en tiempo real:

  • Transcripción de voz a texto
  • Asistentes a reuniones con LLM
  • Análisis de sentimiento o intención en llamadas en directo
  • Robots de voz interactivos
  • Traducción de idiomas en tiempo real
  • Toma de notas o resúmenes automatizados
  • Moderación de audio y detección de conformidad

Vonage ofrece una variedad de conectores y herramientas para integrar AI en sesiones de Voice y Video API a través de nuestros Vonage AI Connectors. Ya sea que se trate de servicios de transcripción, agentes conversacionales, traducción en tiempo real o análisis de sentimientos, las aplicaciones modernas requieren cada vez más acceso a audio y video sin procesar en movimiento, no solo al final de una grabación o después de cargar un archivo. Para respaldar esta próxima generación de aplicaciones inteligentes, Vonage ofrece dos enfoques para que los desarrolladores integren la IA en las sesiones de Voice y Video API: el SDK de Vonage AI Connector para desarrolladores que construyan su propio middleware de IA, y el Integraciones de Vonage Pipecat para desarrolladores que desean un marco de agentes flexible y de código abierto con compatibilidad con distintos proveedores de IA.

SDK de Vonage AI Connector

Los SDK de Vonage AI Connector son bibliotecas de Python que simplifican la forma en que los desarrolladores conectan las sesiones de Voice y Video API de Vonage a sus propios puntos finales de IA. Estos SDK se encargan del acondicionamiento de medios y la interfaz API, para que los desarrolladores puedan centrarse por completo en su lógica de IA en lugar de en la infraestructura.

Existen dos SDK de Vonage AI Connector, cada uno diseñado para un transporte y un caso de uso diferentes:

SDK del servidor de conectores de audio SDK del servidor del conector de vídeo
Compatibilidad API API de Video y API de Voice de Vonage Sólo Video API de Vonage
Transporte WebSocket WebRTC
Medios de comunicación Sólo audio Audio y vídeo
Caso práctico Puente de audio a IA a través del servidor WebSocket Conectar la IA como participante en una sesión de vídeo
Disponibilidad (paquete PyPI) vonage-audio-connector-server vonage-vídeo-conector

SDK del servidor de conectores de audio

Audio Connector Server SDK es una biblioteca de servidor Python WebSocket que conecta el audio entre las sesiones de Vonage y los puntos finales de AI. Funciona tanto con la Video API (a través de Audio Connector) como con la Voice API (a través de Voice WebSockets), por lo que es la opción adecuada para cualquier caso de uso de IA de audio en cualquiera de las dos API.

Entre sus principales funciones figuran:

  • Servidor WebSocket basado en eventos para recibir y enviar audio PCM
  • Compatibilidad con muestras de 8 kHz, 16 kHz y 24 kHz con gestión automática de tramas
  • Devoluciones de llamada asíncronas limpias para eventos de conexión, desconexión, mensaje y error.
  • Buffering y control de tiempo integrados para una reproducción fluida
  • Múltiples conexiones simultáneas para flujos de trabajo multiagente o multiparticipante
  • Compatibilidad con TLS para implantaciones de producción seguras

SDK del servidor del conector de vídeo

El Video Connector Server SDK es una biblioteca de cliente Python WebRTC para Linux que se conecta directamente a las sesiones de video de Vonage. A diferencia del SDK de servidor de conector de audio, admite transmisiones de audio y video, lo que lo convierte en la opción adecuada para las sesiones de video de Vonage, especialmente cuando tu flujo de trabajo de IA necesita procesar o generar video, admite una mayor fidelidad de audio (hasta 48 kHz o estéreo) o cuando deseas las características de menor latencia de una conexión WebRTC.

Entre sus principales funciones figuran:

  • Conexión basada en WebRTC a sesiones de vídeo de Vonage
  • Acceso al flujo de audio y vídeo desde y hacia la sesión de vídeo
  • Admite muestras de audio de hasta 48 kHz y 1 (mono) o 2 (estéreo) canales de audio con gestión automática de tramas
  • Admite una resolución de hasta Full HD (1080p) con controles sobre la resolución y la frecuencia de imagen
  • Soporte para recibir datos de Live Captions de la sesión
  • Interfaz amigable con Python para la integración de puntos finales de IA
  • Diseñado para implantaciones de servidores de IA basados en Linux

Integraciones de Vonage Pipecat

Pipecat es un marco Python de código abierto para orquestar flujos de trabajo de agentes de IA complejos en audio, vídeo, imágenes y texto. Proporciona una canalización modular e independiente del proveedor en la que los desarrolladores pueden combinar proveedores de STT, LLM y TTS, como OpenAI, Deepgram, ElevenLabs o AWS Nova Sonic, sin necesidad de escribir código de traducción de medios.

Vonage ofrece dos integraciones con Pipecat, cada una de las cuales utiliza un transporte diferente:

Serializador de audio de Vonage para Pipecat Transporte de vídeo de Vonage para Pipecat
Compatibilidad API API de Video y API de Voice de Vonage Sólo Video API de Vonage
Transporte WebSocket WebRTC
Medios de comunicación Sólo audio Audio y vídeo
Disponibilidad Serializador de audio de Vonage para Pipecat incluido en la distribución de Pipecat, con muestras para Voice y Video API. Vonage Video Transport for Pipecat ya está disponible en el portal para desarrolladores de Vonage y pronto se ampliará su distribución.
Lo mejor para La mayoría de los casos de uso de la IA de audio: audio primero, amplia compatibilidad de API Video API Casos de uso de la IA, menores requisitos de latencia

Serializador de audio de Vonage para Pipecat

El serializador de audio de Vonage para Pipecat conecta el audio entre las sesiones de voz y video de Vonage y una canalización de procesamiento de Pipecat a través de WebSocket. Maneja la conversión de cuadros de audio, la alineación de la frecuencia de muestreo y los metadatos DTMF, de modo que los desarrolladores pueden conectarse directamente a la creciente biblioteca de nodos AI de Pipecat sin escribir ningún código de traducción de medios. El serializador de audio de Vonage para Pipecat ya está integrado en la distribución de Pipecat e incluye muestras para las API de voz y vídeo de Vonage.

Transporte de vídeo de Vonage para Pipecat

El transporte de video de Vonage para Pipecat conecta agentes de IA a las sesiones de video de Vonage a través de WebRTC, ofreciendo una latencia mejorada en comparación con las implementaciones basadas en WebSocket y soporte completo para transmisiones de audio y video. Es la elección correcta para casos de uso de IA de video o cualquier escenario donde la latencia sea una prioridad. Vonage Video Transport for Pipecat ya está disponible en el portal para desarrolladores de Vonage y funciona con la Video API.

¿Qué camino es el adecuado para usted?

Elija los SDK del conector AI si desea un control total sobre su middleware de IA y prefiere construir y poseer su propia interfaz para los puntos finales de IA utilizando Python.

Elija las integraciones de Pipecat si desea un marco de agentes flexible y de código abierto con proveedores de STT, LLM y TTS mixtos, y quiere beneficiarse de las optimizaciones de la comunidad y de un ecosistema de IA en crecimiento.

Vonage admite ambas rutas y se pueden utilizar según tu arquitectura.

Precios

Los Vonage AI Connectors son bibliotecas que permiten la conectividad a AI, facturada a la tarifa de uso de la conexión subyacente a la sesión de video o llamada de voz.

Video API Voice API
Conectores AI Sin gastos Sin gastos
Conexión WebRTC Por participante N/A
Conexión WebSocket Tasa de conexión de audio Por duración de WebSocket

Conclusión: Despliegue su primer agente de IA

Con Vonage AI Connectors, los desarrolladores tienen un camino limpio, moderno y amigable con Python para construir agentes de IA en tiempo real, sin necesidad de desarrollar una infraestructura de medios desde cero. Tanto si quieres crear un bot de voz, integrar voz a texto con un LLM, generar respuestas sintetizadas en tiempo real o crear una experiencia de IA de vídeo completamente multimodal, Vonage te proporciona las bases que necesitas.

Los siguientes recursos pueden ayudarle a empezar: