https://a.storyblok.com/f/270183/1368x665/a76a0b7f5b/26may_dev-blog_ai-audio_pipecat.jpg

Michael VernickArquitecto de soluciones para clientes

Presentación de Audio Connector SDK y Pipecat Serializer para aplicaciones de audio AI

Publicado el May 7, 2026

#video-api

#ai

#voice-api

Tiempo de lectura: 6 minutos

Introducción

Las aplicaciones de IA en tiempo real están transformando la forma en que los desarrolladores crean experiencias de voz y Video. Ya se trate de servicios de transcripción, agentes conversacionales, traducción en tiempo real o análisis de opiniones, las aplicaciones modernas requieren cada vez más acceso al audio en bruto en movimiento, no solo al final de una grabación o después de cargar un archivo.

Pipecatun marco de trabajo de código abierto, mejora la integración de las API de Video y Voice de Vonage con conectores de audio al proporcionar una plataforma modular e independiente del proveedor para orquestar flujos de trabajo de IA. Con funciones como la latencia ultrabaja, la detección avanzada de la actividad de voz y la compatibilidad multimodal, Pipecat permite a los desarrolladores crear experiencias de IA conversacional altamente receptivas y naturales. Su flexibilidad permite una integración perfecta con una serie de modelos y servicios de IA, lo que la convierte en la opción ideal para crear aplicaciones de audio y vídeo ricas y en tiempo real.

Para apoyar esta próxima generación de aplicaciones inteligentes, Vonage ha introducido dos herramientas complementarias diseñadas específicamente para desarrolladores: el SDK del servidor Python de Vonage Audio Connector y el Vonage Serializer para Pipecat. Juntas, facilitan enormemente la transmisión de audio entre las sesiones de Video y Voice de Vonage, los servidores WebSocket y los marcos de IA como OpenAI, Deepgram o AWS Nova Sonic.

Este blog ofrece una visión general de estas herramientas, explica cómo encajan entre sí y proporciona referencias para desplegar su primer agente basado en IA.

Por qué los desarrolladores necesitan acceso directo al audio en tiempo real

Muchos flujos de trabajo de IA -voz a texto, análisis basado en LLM, síntesis de voz y percepción multimodal- dependen del audio en tiempo real. Los desarrolladores que trabajan con las API de Voice y Video de Vonage llevan tiempo pidiendo una forma sencilla y fiable de recibir audio de una sesión activa, procesarlo y enviar respuestas.

El conector de audio de Vonage para la Video API y la Voice API WebSocket permite a los desarrolladores crear servidores WebSocket que unen las sesiones de Vonage con los flujos de trabajo de AI.

Sin embargo, construir servidores WebSocket de baja latencia, gestionar tramas binarias de audio, coordinar frecuencias de muestreo y mantener conexiones con estado puede ser complejo y propenso a errores. Esta complejidad suele ralentizar la experimentación, el desarrollo de pruebas de concepto y las implantaciones de producción.

Vonage Audio Connector SDK elimina esta fricción.

Ejemplos de uso

La cadena de herramientas admite una amplia gama de experiencias de IA en tiempo real, entre las que se incluyen:

Transcripción de voz a texto
Asistentes a reuniones con LLM
Análisis de sentimiento o intención en llamadas en directo
Robots de voz interactivos
Traducción de idiomas en tiempo real
Toma de notas o resúmenes automatizados
Moderación de audio y detección de conformidad

El SDK del conector de audio

El siguiente diagrama muestra una arquitectura de una sesión de Video o conversación de Voice integrada con el SDK Audio Connector a través de un WebSocket. El SDK es un paquete Python (disponible en PyPI) que abstrae la complejidad de la gestión de los flujos de audio WebSocket de las sesiones de Vonage.

Diagram of Vonage session sending audio via WebSocket to Audio Connector SDK, then to Customer App, and finally to AI Workflow.

Capacidades clave

Servidor WebSocket basado en eventos para recibir y enviar audio PCM
Compatible con muestras de 8 kHz, 16 kHz y 24 kHz con gestión automática de tramas
Devoluciones de llamada asíncronas limpias para eventos de conexión, desconexión, mensaje y error
Buffering y control de tiempo integrados para una reproducción fluida
Múltiples conexiones concurrentes para flujos de trabajo multiagente o multiparticipante
Compatibilidad con TLS para implantaciones de producción seguras

De este modo, los desarrolladores pueden centrarse por completo en lo que desean crear (canales de transcripción, herramientas de análisis, asistentes de voz) sin necesidad de escribir ninguna infraestructura WebSocket.

Primeros pasos con el SDK del conector de audio

El SDK puede instalarse desde el índice de paquetes de Python utilizando un gestor de paquetes de Python.

pip install vonage-audio-connector-server

Referencia

En Guía del desarrollador del SDK proporciona una referencia básica para configurar/iniciar el servidor WebSocket, configurar manejadores asíncronos para la gestión de sesiones y audio, e inyectar audio en la Video Session a través del WebSocket.

La información sobre cómo abrir una conexión WebSocket desde una Video Session a un servidor utilizando el SDK está disponible en la página para desarrolladores del Conector de audio. Encontrará información sobre cómo abrir una conexión WebSocket desde una conversación de voz a un servidor utilizando el SDK en la página para desarrolladores de página para desarrolladores de Voice WebSockets.

Código de muestra

Puedes clonar el código de ejemplo para utilizar el SDK del conector de audio desde el repositorio repositorio GitHub

Serializador de Vonage para Pipecat

Pipecat es un marco de trabajo de código abierto para orquestar complejos flujos de trabajo de inteligencia artificial en audio, vídeo, imágenes y texto. Para aplicaciones centradas en audio, el nuevo serializador de Vonage para Pipecat actúa como puente entre las sesiones de Voice y Video de Vonage y un canal de procesamiento de Pipecat.

Capacidades clave

Convierte las tramas de audio entrantes de Vonage al formato de trama interno de Pipecat.
Alinea frecuencias de muestreo y codificaciones de audio
Admite DTMF y otros metadatos
Convierte las tramas de audio Pipecat salientes en tramas WebSocket de Vonage.

Esto significa que los desarrolladores pueden utilizar la creciente lista de nodos de IA de Pipecat -OpenAI Realtime, Deepgram, Whisper, ElevenLabs, etc.- sin escribir ningún código de traducción de medios.

El serializador proporciona una línea directa entre el audio de un participante en directo y un flujo de trabajo de IA totalmente programable.

Diagram showing a Vonage voice/video session with bi-directional WebSocket audio linked to a customer-deployed Pipecat application via serializer.

Referencia

La página Guía del serializador proporciona una referencia básica para configurar el serializador de Vonage con Pipecat.

Despliegue su primer agente de IA

Uso del SDK de Vonage Audio Connector o serializador Pipecat ofrece a los desarrolladores una forma limpia, moderna y compatible con Python de crear agentes de audio en tiempo real, sin necesidad de reinventar los servidores WebSocket o las canalizaciones de medios.

Tanto si desea crear un bot de voz, integrar voz a texto con un LLM, generar respuestas sintetizadas en tiempo real o analizar el comportamiento de las llamadas, estas herramientas le proporcionan las bases que necesita.

Si estás listo para empezar, explora:

El paquete paquete PyPI para el SDK del conector de audio
Ejemplos de aplicaciones para el SDK
El serializador Pipecat de Vonage
Ejemplos de Vonage en el repositorio Pipecat

Conclusión

Con estas herramientas, puedes implementar tu primer agente de IA en minutos y desarrollar con confianza aplicaciones totalmente inteligentes y conscientes de los medios en la plataforma de Vonage.

¿Tienes alguna pregunta o algo que compartir? Únete a la conversación en Slack de la comunidad de Vonagey mantente actualizado con el Boletín para desarrolladoressíguenos en X (antes Twitter)suscríbete a nuestro canal de YouTube para ver tutoriales en video, y sigue la página de página para desarrolladores de Vonage en LinkedInun espacio para que los desarrolladores aprendan y se conecten con la comunidad. Mantente conectado, comparte tu progreso y entérate de las últimas noticias, consejos y eventos para desarrolladores.

Michael VernickArquitecto de soluciones para clientes

Compartir:

Presentación de Audio Connector SDK y Pipecat Serializer para aplicaciones de audio AI

Introducción

Por qué los desarrolladores necesitan acceso directo al audio en tiempo real

Ejemplos de uso

El SDK del conector de audio

Capacidades clave

Primeros pasos con el SDK del conector de audio

Referencia

Código de muestra

Serializador de Vonage para Pipecat

Capacidades clave

Referencia

Despliegue su primer agente de IA

Conclusión

Compartir: