SDK del servidor de conectores de audio

Visión general

En SDK de servidor de conector de audio de Vonage es una biblioteca de Python para crear puntos finales WebSocket del lado del servidor que envían y reciben audio PCM en tiempo real de las sesiones de la Video API de Vonage. Está construida sobre el Conector de audioque permite extraer secuencias de audio de una sesión en directo y enviarlos a un servidor WebSocket externo.

El SDK abstrae el protocolo WebSocket de bajo nivel, el ciclo de vida de la conexión, el almacenamiento en búfer de fotogramas de audio y la gestión del tiempo para que puedas centrarte en el procesamiento de audio y la integración de servicios de IA.

Cómo funciona

Cuando una sesión de Vonage Video usa el conector de audio, el enrutador de medios de la sesión abre una conexión WebSocket a tu servidor y comienza a transmitir audio PCM. El SDK del servidor del conector de audio maneja esa conexión a través de un modelo impulsado por eventos:

  1. El SDK inicia un servidor WebSocket que escucha en un host y puerto configurables.
  2. Cuando el Conector de Audio abre una conexión, el SDK dispara un on_connect y pasa un al código de la aplicación.
  3. Su aplicación registra manejadores en el manejador del cliente para recibir tramas de audio (on_message), detectar la desconexión (on_disconnect), y gestionar los errores (on_error).
  4. Su aplicación procesa el audio -por ejemplo, reenviándolo a un servicio de voz a texto y envía el audio procesado o los mensajes de control de vuelta a la sesión a través del mismo cliente.

El SDK gestiona internamente el almacenamiento en búfer de audio y la sincronización de fotogramas, garantizando una reproducción fluida. sincronización cuando envíe el audio de vuelta a la sesión.

Capacidades clave

  • Arquitectura basada en eventos: El ciclo de vida del servidor (inicio, parada) y los eventos de conexión (conexión, (conectar, desconectar, mensaje, error) se manejan a través de llamadas de retorno asíncronas, manteniendo la lógica de su aplicación desacoplada de la gestión de conexiones. desacoplada de la gestión de conexiones.
  • Audio bidireccional en tiempo real: Reciba audio PCM sin procesar de la sesión y envíe audio PCM PCM procesado, con frecuencias de muestreo configurables (8 kHz, 16 kHz, 24 kHz).
  • Múltiples conexiones simultáneas: Maneja múltiples sesiones de Audio Connector simultáneamente, lo que lo hace adecuado para flujos de trabajo multi-tenant o AI a escala.
  • Compatible con SSL/TLS: Conexiones WebSocket seguras con un contexto SSL proporcionado para producción.
  • Gestión de fotogramas de audio: El almacenamiento en búfer y el control de tiempo integrados sincronizan los fotogramas de audio salientes para que no tengas que implementar la lógica de ritmo tú mismo.

Cuándo utilizar este SDK

Usa el SDK de servidor de conector de audio cuando necesites conectar el audio de la sesión de Vonage Video en vivo a una canalización de procesamiento del lado del servidor. Los escenarios comunes incluyen:

  • Asistentes conversacionales de IA: Cree bots de voz utilizando un canal de conversión de texto en voz → LLM → voz. directamente en una sesión de vídeo.
  • Transcripción y traducción en directo: Transmita audio a un servicio de transcripción y subtítulos o voz traducida en tiempo real.
  • Análisis de sentimientos y tonos: Detecte señales de emoción o de conformidad durante las llamadas en directo.
  • Biometría vocal: Identifique o autentique a los oradores a partir de su flujo de audio.
  • Entrenamiento en tiempo real: Proporcione comentarios generados por IA a los agentes durante las llamadas de los clientes.
  • Toma de notas automatizada: Genere resúmenes, transcripciones y elementos de acción a partir del audio de la sesión.
  • Moderación de contenidos: Marque los discursos inapropiados o no conformes en el momento en que se produzcan.

Si su caso de uso implica el procesamiento de vídeo o avatares de vídeo además de audio, considere la posibilidad de utilizar el Conector de vídeo o el Conector de vídeo Integración de Pipecat en su lugar.

Si desea conectarse a un pipeline pre-construido del marco Pipecat AI en lugar de implementar su propio procesamiento de audio, consulte la sección "Procesamiento de audio". propio procesamiento de audio, consulte la Serializador de audio de Vonage para Pipecat.

Ver también