Serializador de audio de Vonage para Pipecat

Visión general

Pipecat es un marco de trabajo de código abierto para crear aplicaciones de IA y multimodales. Orquesta servicios de IA -como voz a texto, modelos de lenguaje y texto a voz, junto con transportes de red y procesamiento de audio/vídeo para producir conversaciones de baja latencia y sonido natural.

En Serializador de audio de Vonage para Pipecat es un componente de transporte que conecta una canalización Pipecat a la plataforma de Vonage. Maneja la conversión del formato de audio y la conectividad WebSocket para recibir audio de una sesión de voz o video de Vonage y enviar el audio procesado procesado en tiempo real.

Cómo funciona

Vonage enruta el audio a servicios externos a través de conexiones WebSocket administradas. El Vonage Audio actúa como adaptador de protocolo entre ese flujo WebSocket y el canal de audio interno de Pipecat. de Pipecat:

  1. Tu aplicación Pipecat inicia un servidor WebSocket utilizando el serializador de Vonage como capa de transporte. capa de transporte.
  2. Vonage abre una conexión WebSocket a su servidor, ya sea desde una sesión de vídeo a través de Conector de audioo desde una llamada de voz a través de una OCNN connect acción.
  3. El serializador convierte el formato de audio entrante de Vonage en los marcos PCM que Pipecat espera, y los introduce en tu canal.
  4. Su canalización procesa el audio a través de sus servicios de IA configurados y devuelve una respuesta.
  5. El serializador convierte el audio de salida al formato que Vonage espera y lo envía a través de WebSocket, donde se reproduce para los participantes de la sesión.

Relación con otras integraciones de Vonage Pipecat

Vonage ofrece dos integraciones de Pipecat separadas que abordan diferentes casos de uso:

Integración Transporte Caso práctico
Serializador de audio de Vonage WebSocket de audio (conector de audio / NCCO de voz) Canalizaciones de IA sólo audio para sesiones de voz o vídeo
Conector de vídeo Integración de Pipecat WebRTC (Conector de vídeo) Canalizaciones que también procesan o generan vídeo, como los avatares de vídeo

Utilice el serializador de audio cuando su canalización sólo necesite procesar y devolver audio. Utilice el Video Connector transport cuando su canalización también necesite trabajar con fotogramas de vídeo.

Cuándo usar el serializador de audio de Vonage

  • Asistentes de voz de IA en tiempo real: Implementa un bot de voz respaldado por LLM dentro de una sesión de Vonage Video o en una llamada telefónica entrante.
  • Transcripción y traducción en directo: Canalizar el audio de la sesión a través de un servicio de transcripción y devolver el discurso traducido a los participantes.
  • Grabación y análisis de llamadas: Capture y analice el contenido de las conversaciones de voz o vídeo en tiempo real.
  • Procesamiento de efectos de audio: Aplica filtrado, reducción de ruido u otras transformaciones al audio antes de que llegue a los participantes.
  • Moderación automática: Detectar los discursos inadecuados o que no se ajusten a las normas y actuar en consecuencia en cuanto se produzcan. se produzca.

Ver también