https://a.storyblok.com/f/270183/1368x665/229d3bd67d/26may_dev-blog_ai-video-apps-conn-sdk-pipecat.jpg

Presentación del SDK Video Connector y Pipecat Transport para aplicaciones de vídeo con inteligencia artificial

Publicado el May 28, 2026

Tiempo de lectura: 8 minutos

Introducción

Las Applications de IA en tiempo real están transformando la forma en que los desarrolladores crean experiencias de Video. Ya se trate de bots de voz, avatares de vídeo, transcripción en tiempo real, detección de emociones o traducción de idiomas en directo, las aplicaciones modernas requieren cada vez más acceso en tiempo real a secuencias de audio y vídeo sin procesar, y no solo a grabaciones posteriores.

Hasta ahora, la integración de flujos de trabajo de IA en una sesión en directo de Vonage Video requería profundos conocimientos de C++ y manejo de medios de bajo nivel. Esa barrera ha desaparecido. Vonage ha introducido dos herramientas complementarias basadas en Python diseñadas específicamente para desarrolladores que crean aplicaciones inteligentes y conscientes de los medios: el SDK del servidor del conector de Video y el Transporte de Video de Vonage para Pipecat.

Juntas, facilitan enormemente la transmisión de audio y video entre las sesiones de Vonage Video y los marcos de IA como OpenAI, Deepgram, AWS Nova Sonic, HeyGen y más. Esta publicación del blog ofrece una descripción general de estas herramientas, explica cómo se combinan y proporciona referencias para implementar tu primer agente de video impulsado por IA.

Por qué los desarrolladores necesitan acceso directo a vídeo y audio en tiempo real

Muchos flujos de trabajo de IA, como la conversión de voz a texto, el análisis basado en LLM, la síntesis de voz, el seguimiento de expresiones faciales y la percepción multimodal, dependen de los medios en tiempo real. Los desarrolladores que trabajan con la API de Video de Vonage llevan mucho tiempo pidiendo una forma sencilla y fiable de recibir audio y vídeo de una sesión activa, procesarlo con IA y devolver las respuestas.

Anteriormente, la única opción del lado del servidor para acceder a medios sin procesar desde una sesión de Vonage Video era el Linux C++ SDK. Aunque potente, su naturaleza de bajo nivel creaba una curva de aprendizaje pronunciada que ralentizaba la innovación y limitaba la adopción, especialmente entre los desarrolladores de Python, que constituyen la mayoría de la comunidad de IA/ML.

El SDK de Vonage Video Connector elimina esta fricción.

Ejemplos de uso

La cadena de herramientas admite una amplia gama de experiencias de IA en tiempo real, entre las que se incluyen:

  • Agentes de voz y Video AI (bots)asistentes interactivos que ven y oyen a los participantes

  • Transcripción y subtítulos en tiempo realVoz a texto en directo para mayor accesibilidad y comprensión

  • Resúmenes y notas de reunionesToma de notas automatizada con identificación de oradores

  • Traducción de idiomasTraducción de audio en tiempo real entre los participantes

  • Detección de emociones y expresiones facialesAnálisis de sentimientos a partir de fotogramas de Video

  • Seguimiento de pacientes y exámenesMonitorización a distancia mediante vídeo en directo

  • Video avatares: Respuestas de vídeo generadas por inteligencia artificial y sincronizadas con la voz.

Moderación de contenidosDetección de contenidos sonoros o visuales inapropiados en tiempo real

Qué ofrece el SDK del conector de Video

El SDK del servidor del conector de Video es un paquete Python (disponible en PyPI) que actúa como cliente WebRTC del lado del servidor para las sesiones de Video de Vonage. Es una envoltura de Python alrededor del SDK de C++ de Vonage Linux, lo que permite aplicaciones sin cabeza e implementables en la nube sin necesidad de conocimientos de C++.

A diagram showing how the Video Connector Server SDK is integrated into an end-to-end video session.Topology of Video Connector Server SDK

Capacidades clave

  • Participación en WebRTC del lado del servidor: únete a una sesión de Vonage Video como cliente del lado del servidor

  • Audio y Video Bidireccional: publique y suscríbase a flujos de audio y vídeo en tiempo real

  • Formatos multimedia de alta calidad: audio suministrado como PCM de 16 bits (hasta 48 kHz); Video como fotogramas en bruto de 8 bits hasta FHD 1080p30

  • Continuidad multimedia automatizada: gestiona de forma inteligente las interrupciones en la entrega de contenidos

  • Suscripción a subtítulos (beta): reciba subtítulos autogenerados de la sesión

  • Identificación individual de flujos de audio (beta)diferenciar y procesar paquetes de audio por participante

  • Arquitectura basada en eventos: ricas llamadas de retorno asíncronas para eventos de sesión y multimedia

  • Despliegue en la nube y headlessdiseñado para su uso en el lado del servidor en entornos de contenedores

Esto permite a los desarrolladores centrarse por completo en lo que quieren crear: canalizaciones de IA, herramientas de análisis, bots de vídeo, sin necesidad de escribir código WebRTC o de infraestructura multimedia.

Primeros pasos con el SDK del conector de Video

El SDK puede instalarse desde el Índice de paquetes de Pythony está diseñado en torno a un flujo de trabajo basado en eventos: conéctese a una sesión, suscríbase a los flujos de participantes, reciba fotogramas de audio y vídeo a través de retrollamadas, procéselos con su canal de IA y publique las respuestas en la sesión.

Referencia

En documentación para desarrolladores del Conector de Video proporciona una referencia completa para configurar sesiones, configurar manejadores de medios y publicar audio y vídeo en una sesión.

Transporte de Video de Vonage para Pipecat

Pipecat es un marco de trabajo en Python de código abierto para orquestar flujos de trabajo de IA complejos en audio, vídeo, imágenes y texto. Proporciona una plataforma modular e independiente del proveedor para crear canalizaciones de IA en tiempo real. Conecta voz a texto, LLM, texto a voz, avatares de vídeo y mucho más con una codificación mínima.

Para aplicaciones centradas en Video, el nuevo transporte de video de Vonage para Pipecat actúa como puente entre una sesión en vivo de Vonage Video y una canalización de procesamiento de Pipecat. A diferencia de un serializador (que maneja la conversión de formato de audio solamente), un transporte permite el audio bidireccional completo y bidireccional entre una sesión WebRTC de Vonage y el canal de Pipecat.

Flowchart of a video setup: Vonage Video Session connects via WebRTC to a Customer Application Server, which processes raw audio/video and links to AI Engines.

El transporte de Vonage para Pipecat

  • Conecta una sesión de Video de Vonage a una canalización de Pipecat a través del SDK del conector de Video.

  • Admite secuencias bidireccionales de audio y vídeo

  • Hereda de Pipecat's BaseTransport, BaseInputTransporty BaseOutputTransport clases abstractas

  • Se inicializa utilizando un identificador de sesión de Vonage, un token y una lista opcional de identificadores de flujos a los que suscribirse.

  • Permite el acceso a todo el ecosistema Pipecat de servicios de IA

Esto significa que los desarrolladores pueden utilizar la creciente lista de integraciones de IA de Pipecat (OpenAI Realtime, AWS Nova Sonic, Deepgram, ElevenLabs, HeyGen, Tavus, Simli, etc.) sin tener que escribir ningún código de traducción de medios o WebRTC.

Integración de servicios de inteligencia artificial Pipecat

Pipecat es compatible con un amplio y creciente conjunto de servicios de inteligencia artificial:

Categoría

Servicios de apoyo

De voz a texto

Deepgram, OpenAI Whisper, AssemblyAI, Azure, Google, AWS Transcribe, etc.

LLM

OpenAI, Anthropic, Gemini, Grok, Bedrock, Ollama, etc.

Texto a voz

ElevenLabs, Cartesia, OpenAI, AWS Polly, Google y más

De voz a voz

AWS Nova Sonic, OpenAI Realtime, Gemini Live

Avatares de Video

HeyGen, Simli, Tavus

Para consultar la lista más reciente, visite la página Página de servicios compatibles con Pipecat.

Referencia

En Documentación para desarrolladores de Vonage Video Connector Pipecat Transport proporciona una referencia completa para configurar el transporte de Vonage y crear tu primer agente de vídeo con Pipecat.

Ejemplos de Applications

Para ayudarte a comenzar rápidamente, Vonage proporciona aplicaciones de muestra que demuestran casos de uso del mundo real:

  • Servidor EcoUna sencilla aplicación que devuelve audio y vídeo a la sesión, útil para validar la configuración.

  • Avatar de Video con Subtítulos (Pipecat): una canalización completa que utiliza AWS Nova Sonic para la conversión de voz a voz y HeyGen para respuestas de avatares de video generados por IA, con subtítulos en directo.

  • Audio Descripción de Video (Pipecat)utiliza Moondream AI para el reconocimiento de vídeo y la conversión de texto a voz para describir lo que ocurre en el flujo de vídeo en tiempo real.

El código de ejemplo está disponible en el repositorio repositorio de versiones. Empezar es muy sencillo:

  1. Descargue y extraiga el tarball del SDK del repositorio de versiones

  2. Instalar Docker

  3. Abre el archivo README.md en el directorio principal y construye la imagen Docker

  4. Crea una sesión de Vonage Video y un archivo session.json archivo con tus credenciales de sesión

  5. Ejecute los ejemplos de servidor echo o Pipecat siguiendo las instrucciones README.md en cada directorio de ejemplos

Cómo encajan las herramientas

Vonage ofrece ahora una completa cadena de herramientas Python para integrar la IA en las sesiones de Voice y Video:

Herramienta

Transporte

Capacidades

SDK del conector de audio

WebSocket

Sólo audio

(sesiones de Voice API y Video API)

Serializador Pipecat

WebSocket

Sólo audio

(sesiones de Voice API y Video API)

SDK del conector de Video

WebRTC

Audio + Video

(Sesiones de la Video API)

Transporte Pipecat

WebRTC

Audio + Video

(Sesiones de la Video API)

Si su caso de uso es sólo audioel SDK del conector de audio y serializador Pipecat son el punto de partida adecuado. Si necesita acceso completo a audio y Video-para avatares, detección de emociones, IA visual o agentes multimodales- el SDK del conector de Video y Pipecat Transporte son las herramientas que necesita.

Conclusión

Vonage Video Connector SDK y Pipecat Transport ofrecen un enfoque optimizado, moderno y centrado en Python para crear agentes de audio y vídeo en tiempo real. Estas herramientas eliminan la necesidad de que los desarrolladores gestionen complejos componentes internos de WebRTC, escriban código C++ o construyan manualmente canalizaciones de medios.

Tanto si está creando un bot avatar de vídeo, integrando voz a texto con un LLM, analizando expresiones faciales en tiempo real o creando un asistente de reuniones potenciado por IA, estas herramientas le proporcionan las bases que necesita.

Si estás listo para empezar, explora:

Ahora puedes implementar tu primer agente de video de IA en minutos y construir con confianza hacia aplicaciones completamente inteligentes y conscientes de los medios en la plataforma de Vonage.

¿Tienes alguna pregunta o algo que compartir? Únete a la conversación en Slack de la comunidad de Vonagey mantente actualizado con el Boletín para desarrolladoressíguenos en X (antes Twitter)suscríbete a nuestro canal de YouTube para ver tutoriales en video, y sigue la página de página para desarrolladores de Vonage en LinkedInun espacio para que los desarrolladores aprendan y se conecten con la comunidad. Mantente conectado, comparte tu progreso y entérate de las últimas noticias, consejos y eventos para desarrolladores.

Compartir:

https://a.storyblok.com/f/270183/331x330/f4b074099d/michael-vernick.png
Michael VernickArquitecto de soluciones para clientes