SDK du serveur de connecteurs audio

Vue d'ensemble

Les SDK du serveur de connecteurs audio de Vonage est une bibliothèque Python permettant de créer des points d'extrémité WebSocket côté serveur qui envoient et reçoivent de l'audio PCM en temps réel à partir des sessions de l'API Video de Vonage. Elle est construite au dessus de la bibliothèque Connecteur audioqui vous permet d'extraire des flux audio bruts d'une session en direct et de les acheminer vers un serveur WebSocket externe. d'une session en direct et de les acheminer vers un serveur WebSocket externe.

Le SDK fait abstraction du protocole WebSocket de bas niveau, du cycle de vie de la connexion, de la mise en mémoire tampon des trames audio, et la gestion de la synchronisation afin que vous puissiez vous concentrer sur le traitement de l'audio et l'intégration de services d'intelligence artificielle.

Comment ça marche

Lorsqu'une session vidéo Vonage utilise le connecteur audio, le routeur média de la session ouvre une connexion WebSocket à votre serveur et commence à diffuser de l'audio PCM. Le SDK du serveur du connecteur audio gère cette connexion par le biais d'un modèle piloté par les événements :

Le SDK démarre un serveur WebSocket qui écoute sur un hôte et un port configurables.
Lorsque l'Audio Connector ouvre une connexion, le SDK déclenche un on_connect et transmet un au code de votre application.
Votre application enregistre des gestionnaires sur le handle du client pour recevoir des trames audio (on_message), détecter une déconnexion (on_disconnect), et gérer les erreurs (on_error).
Votre application traite l'audio - par exemple, en le transmettant à un service de synthèse vocale - et renvoie les messages audio ou de contrôle traités à la session via le même service. et renvoie les messages audio ou de contrôle traités à la session via la même poignée client. poignée client.

Le SDK gère la mise en mémoire tampon de l'audio et la synchronisation des images en interne, ce qui garantit une synchronisation fluide de la lecture lorsque vous renvoyez l'audio dans la session. synchronisation de la lecture lorsque vous renvoyez de l'audio dans la session.

Capacités clés

Architecture pilotée par les événements : Le cycle de vie du serveur (démarrage, arrêt) et les événements de connexion (connexion, déconnexion, message, erreur) sont gérés par des rappels asynchrones, ce qui permet de dissocier la logique de l'application de la gestion des connexions. découplée de la gestion des connexions.
Audio bidirectionnel en temps réel : Recevoir l'audio PCM brut de la session et renvoyer l'audio PCM traité, avec des fréquences d'échantillonnage configurables. PCM traités, avec des taux d'échantillonnage configurables (8kHz, 16kHz, 24kHz).
Plusieurs connexions simultanées : Gérer simultanément plusieurs sessions Audio Connector, ce qui le rend adapté aux flux de travail multi-locataires ou à l'échelle de l'IA.
Prise en charge SSL/TLS : Sécuriser les connexions WebSocket avec un contexte SSL fourni pour les déploiements de production. de production.
Gestion des trames audio : La mise en mémoire tampon intégrée et le contrôle du temps permettent de synchroniser les trames audio sortantes. Vous n'avez donc pas besoin d'implémenter vous-même une logique de rythme.

Quand utiliser ce SDK

Utilisez le SDK Audio Connector Server lorsque vous devez connecter l'audio d'une session Vonage Video en direct à un pipeline de traitement côté serveur. à un pipeline de traitement côté serveur. Les scénarios les plus courants sont les suivants :

Assistants conversationnels d'IA : Créez des robots vocaux à l'aide d'un pipeline de synthèse → LLM → vocale directement dans une session vidéo. directement dans une session vidéo.
Transcription et traduction en direct : Transmission d'un flux audio à un service de transcription et retour des sous-titres ou des traductions en temps réel.
Analyse des sentiments et des tonalités : Détecter les émotions ou les signaux de conformité pendant les appels en direct.
Biométrie vocale : Identifier ou authentifier les locuteurs à partir de leur flux audio.
Coaching en temps réel : Fournir un retour d'information généré par l'IA aux agents pendant les appels des clients.
Prise de notes automatisée : Générer des résumés, des transcriptions et des actions à entreprendre à partir de l'audio de la session.
Modération du contenu : Signaler les discours inappropriés ou non conformes au fur et à mesure qu'ils se produisent.

Si votre cas d'utilisation implique un traitement vidéo ou des avatars vidéo en plus de l'audio, envisagez l'option SDK du serveur de connecteurs vidéo ou le

Transport vidéo de Vonage pour Pipecat au lieu de cela.

Si vous souhaitez vous connecter à un pipeline Pipecat AI pré-construit plutôt que d'implémenter votre propre traitement audio, reportez-vous à la section "Traitement audio". propre traitement audio, consultez la page Sérialiseur audio Vonage pour Pipecat.

Voir aussi

Configurer le SDK Audio Connector Server - Installation et configuration installation et configuration
Connecteur audio - Comment la fonctionnalité sous-jacente Audio Connector permet d'acheminer l'audio d'une session vers une WebSocket
Sérialiseur audio Vonage pour Pipecat - Connexion des pipelines Pipecat aux sessions Vonage