Sérialiseur audio Vonage pour Pipecat

Vue d'ensemble

Pipecat est un cadre open-source pour la création d'applications d'IA conversationnelle vocale et multimodale. multimodales d'IA conversationnelle. Il orchestre des services d'IA, tels que la synthèse vocale, les modèles de langage et la synthèse vocale, ainsi que des transports réseau et des traitements audio/vidéo, modèles de langage et la synthèse vocale, ainsi que les transports réseau et le traitement audio/vidéo, afin de produire des conversations naturelles à faible latence. pour produire des conversations à faible latence et à consonance naturelle.

Les Sérialiseur audio Vonage pour Pipecat est un composant de transport qui relie un pipeline Pipecat à la plateforme Vonage. Il gère la conversion du format audio et la connectivité WebSocket nécessaires pour recevoir l'audio d'une session vocale ou vidéo de Vonage et renvoyer l'audio traité en temps réel. en temps réel.

Comment ça marche

Vonage achemine l'audio vers des services externes via des connexions WebSocket gérées. Le sérialiseur audio de Vonage Serializer agit comme un adaptateur de protocole entre ce flux WebSocket et le pipeline audio interne de Pipecat. de Pipecat :

Votre application Pipecat démarre un serveur WebSocket utilisant le sérialiseur Vonage comme couche de transport. couche de transport.
Vonage ouvre une connexion WebSocket à votre serveur - soit à partir d'une session vidéo via Connecteur audioou d'un appel vocal via un NCCO connect action.
Le sérialiseur convertit le format audio entrant de Vonage en trames PCM attendues par Pipecat, et les introduit dans votre pipeline.
Votre pipeline traite l'audio par l'intermédiaire des services d'IA configurés et renvoie une réponse.
Le sérialiseur convertit l'audio de sortie dans le format attendu par Vonage et l'envoie via WebSocket, où il est lu par les participants à la session. WebSocket, où il est diffusé aux participants de la session.

Relation avec les autres intégrations de Vonage Pipecat

Vonage propose deux intégrations Pipecat distinctes qui répondent à des cas d'utilisation différents :

Intégration	Transport	Cas d'utilisation
Sérialiseur audio Vonage	Audio WebSocket (Audio Connector / Voice NCCO)	Pipelines d'IA uniquement audio pour les sessions vocales ou vidéo
Transport vidéo de Vonage pour Pipecat	WebRTC (connecteur vidéo)	Pipelines qui traitent ou génèrent également de la vidéo, tels que les avatars vidéo

Utilisez le sérialiseur audio lorsque votre pipeline ne doit traiter et renvoyer que de l'audio. Utilisez le Vonage Video Transport for Pipecat lorsque votre pipeline doit également traiter des images vidéo.

Quand utiliser le sérialiseur audio de Vonage ?

Assistants vocaux d'IA en temps réel : Déployer un robot vocal soutenu par LLM à l'intérieur d'une session Vonage Video ou lors d'un appel téléphonique entrant.
Transcription et traduction en direct : Transmettre l'audio de la session à un service de transcription et renvoyer le discours traduit aux participants.
Enregistrement et analyse des appels : Capturez et analysez le contenu des conversations des appels vocaux ou vidéo en temps réel. en temps réel.
Traitement des effets audio : Appliquer un filtrage, une réduction du bruit ou d'autres transformations à l'audio avant qu'il ne parvienne aux participants. l'audio avant qu'il ne parvienne aux participants.
Modération automatisée : Détecter les propos non conformes ou inappropriés et agir dès qu'ils se se produisent.

Voir aussi

Connecter Pipecat à une session Vonage - Guide pratique pour les sessions vidéo et vocales
Connecteur audio - Comment le connecteur audio transmet le flux audio d'une session vidéo vers une WebSocket
SDK du serveur de connecteurs audio - Construisez votre propre serveur de traitement audio WebSocket personnalisé sans Pipecat
Transport vidéo de Vonage pour Pipecat - Intégration de Pipecat pour les pipelines qui traitent aussi bien la vidéo que l'audio
Documentation Pipecat