Outils d'IA de Vonage pour créer des agents d'IA en temps réel sur les API vidéo et vocales de Vonage.

De nombreux flux de travail d'IA, tels que la conversion de la parole en texte, l'analyse pilotée par LLM, la synthèse vocale et la perception multimodale, dépendent de l'audio et de la vidéo en temps réel. Les développeurs qui travaillent avec les API Voice et Video de Vonage demandent depuis longtemps un moyen simple et fiable de recevoir les médias d'une session active, de les traiter avec l'IA et de renvoyer les réponses.

Construire cette infrastructure à partir de zéro, gérer des serveurs WebSocket, des trames audio binaires, des taux d'échantillonnage, des connexions WebRTC et des sessions avec état, est complexe et source d'erreurs. Cela ralentit l'expérimentation, le développement de la preuve de concept et les déploiements en production.

Vonage résout ce problème grâce à deux ensembles d'outils complémentaires qui éliminent cette friction et permettent aux développeurs de se concentrer sur ce qu'ils veulent construire. Ces ensembles d'outils prennent en charge un large éventail d'expériences d'IA en temps réel, notamment :

  • Transcription de la parole au texte
  • Assistants de réunion basés sur le LLM
  • Analyse du sentiment ou de l'intention dans les appels en direct
  • Bots vocaux interactifs
  • Traduction linguistique en temps réel
  • Prise de notes ou résumé automatisé
  • Modération audio et détection de la conformité

Vonage fournit une variété de connecteurs et d'outils pour intégrer l'IA dans les sessions API Voice et Video grâce à nos connecteurs Vonage AI. Qu'elles alimentent des services de transcription, des agents conversationnels, des traductions en temps réel ou des analyses de sentiments, les applications modernes ont de plus en plus besoin d'accéder à l'audio et à la vidéo brutes en mouvement, et pas seulement à la fin d'un enregistrement ou après le téléchargement d'un fichier. Pour soutenir cette nouvelle génération d'applications intelligentes, Vonage propose deux approches aux développeurs qui intègrent l'IA dans les sessions Voice API et Video API : l' SDKs du connecteur AI de Vonage pour les développeurs qui créent leur propre logiciel intermédiaire d'IA, et la Intégrations Vonage Pipecat pour les développeurs qui souhaitent disposer d'un cadre d'agent flexible et open-source avec un support de fournisseur d'IA mixte.

SDKs du connecteur AI de Vonage

Les SDK du connecteur AI de Vonage sont des bibliothèques Python qui simplifient la façon dont les développeurs connectent les sessions API Voice et Video de Vonage à leurs propres points d'extrémité AI. Ces SDK gèrent le conditionnement des médias et l'interface API, de sorte que les développeurs peuvent se concentrer entièrement sur leur logique d'IA plutôt que sur l'infrastructure.

Il existe deux SDK pour le connecteur AI de Vonage, chacun étant conçu pour un transport et un cas d'utilisation différents :

SDK du serveur de connecteurs audio SDK du serveur de connecteurs vidéo
Compatibilité API Video API de Vonage et Voice API de Vonage API Video de Vonage uniquement
Transport WebSocket WebRTC
Les médias Audio uniquement Audio + Vidéo
Cas d'utilisation Relier l'audio à l'IA via un serveur WebSocket Connecter l'IA en tant que participant à une session vidéo
Disponibilité (paquet PyPI) vonage-audio-connector-server vonage-video-connector

SDK du serveur de connecteurs audio

Le SDK Audio Connector Server est une bibliothèque de serveur WebSocket Python qui établit un pont audio entre les sessions Vonage et les points d'extrémité AI. Il fonctionne avec l'API Video (via Audio Connector) et l'API Voice (via Voice WebSockets), ce qui en fait le bon choix pour tout cas d'utilisation de l'IA audio dans l'une ou l'autre des API.

Les principales capacités sont les suivantes

  • Serveur WebSocket événementiel pour la réception et l'envoi d'audio PCM
  • Prise en charge des échantillons de 8 kHz, 16 kHz et 24 kHz avec traitement automatique des trames
  • Nettoyer les callbacks asynchrones pour les événements de connexion, de déconnexion, de message et d'erreur
  • Mise en mémoire tampon intégrée et contrôle de la synchronisation pour une lecture fluide
  • Plusieurs connexions simultanées pour des flux de travail multi-agents ou multi-participants
  • Prise en charge de TLS pour des déploiements de production sécurisés

SDK du serveur de connecteurs vidéo

Le SDK du serveur de connecteurs vidéo est une bibliothèque client WebRTC Python pour Linux qui se connecte directement aux sessions vidéo de Vonage. Contrairement au SDK Audio Connector Server, il prend en charge les flux audio et vidéo, ce qui en fait le bon choix pour les sessions vidéo Vonage, en particulier lorsque votre flux de travail AI doit traiter ou générer de la vidéo, prend en charge une fidélité audio plus élevée (jusqu'à 48 kHz ou stéréo), ou lorsque vous souhaitez bénéficier des caractéristiques de latence plus faible d'une connexion WebRTC.

Les principales capacités sont les suivantes

  • Connexion basée sur WebRTC aux sessions vidéo de Vonage
  • Accès aux flux audio et vidéo depuis et vers la session vidéo
  • Prise en charge d'échantillons audio jusqu'à 48 kHz et de 1 (mono) ou 2 (stéréo) canaux audio avec gestion automatique des trames.
  • Prise en charge de la résolution Full HD (1080p) avec contrôle de la résolution et de la fréquence d'images
  • Prise en charge de la réception des données de sous-titrage en direct de la session
  • Interface conviviale avec Python pour l'intégration des points d'extrémité de l'IA
  • Conçu pour les déploiements de serveurs d'intelligence artificielle basés sur Linux

Intégrations Vonage Pipecat

Pipecat est un framework Python open-source permettant d'orchestrer des flux de travail complexes d'agents d'IA dans les domaines de l'audio, de la vidéo, de l'image et du texte. Il fournit un pipeline modulaire et neutre où les développeurs peuvent combiner STT, LLM et fournisseurs de TTS - tels que OpenAI, Deepgram, ElevenLabs, ou AWS Nova Sonic - sans écrire de code de traduction de média.

Vonage propose deux intégrations avec Pipecat, chacune utilisant un transport différent :

Sérialiseur audio Vonage pour Pipecat Transport vidéo de Vonage pour Pipecat
Compatibilité API Video API de Vonage et Voice API de Vonage API Video de Vonage uniquement
Transport WebSocket WebRTC
Les médias Audio uniquement Audio + Vidéo
Disponibilité Vonage Audio Serializer pour Pipecat inclus dans la distribution de Pipecat, avec des échantillons pour les API Voice et Video. Vonage Video Transport pour Pipecat disponible dès maintenant sur le portail des développeurs de Vonage, avec une distribution plus large à venir.
Meilleur pour La plupart des cas d'utilisation de l'IA audio - priorité à l'audio, large compatibilité avec les API Cas d'utilisation de l'API Video AI, exigences de latence plus faibles

Sérialiseur audio Vonage pour Pipecat

Le sérialiseur audio de Vonage pour Pipecat établit un pont audio entre les sessions voix et vidéo de Vonage et un pipeline de traitement Pipecat via WebSocket. Il gère la conversion des trames audio, l'alignement de la fréquence d'échantillonnage et les métadonnées DTMF, de sorte que les développeurs peuvent se connecter directement à la bibliothèque croissante de nœuds AI de Pipecat sans avoir à écrire de code de traduction des médias. Le sérialiseur audio de Vonage pour Pipecat est déjà intégré à la distribution de Pipecat et comprend des échantillons pour les API Vonage Voice et Vonage Video.

Transport vidéo de Vonage pour Pipecat

Le transport vidéo de Vonage pour Pipecat connecte les agents d'intelligence artificielle aux sessions vidéo de Vonage via WebRTC, offrant une latence améliorée par rapport aux implémentations basées sur WebSocket et une prise en charge complète des flux audio et vidéo. C'est le bon choix pour les cas d'utilisation de l'IA vidéo ou tout scénario où la latence est une priorité. Le Video Transport de Vonage pour Pipecat est disponible dès maintenant sur le portail des développeurs de Vonage et fonctionne avec l'API vidéo.

Quelle est la voie la plus appropriée pour vous ?

Choisir les SDK du connecteur AI si vous souhaitez avoir un contrôle total sur votre middleware d'IA et préférez construire et posséder votre propre interface avec les terminaux d'IA en utilisant Python.

Choisir les intégrations Pipecat si vous souhaitez un cadre d'agent flexible et open-source avec des fournisseurs STT, LLM et TTS, et si vous voulez bénéficier des optimisations de la communauté et d'un écosystème d'IA en pleine croissance.

Les deux chemins sont entièrement pris en charge par Vonage et peuvent être utilisés en fonction de votre architecture.

Tarification

Les connecteurs AI de Vonage sont des bibliothèques qui permettent la connectivité à l'IA, facturée au taux d'utilisation de la connexion sous-jacente à la session vidéo ou à l'appel vocal.

Video API Voice API
Connecteurs AI Sans frais Sans frais
Connexion WebRTC Par participant N/A
Connexion WebSocket Taux du connecteur audio Par durée de WebSocket

Conclusion : Déployer votre premier agent d'intelligence artificielle

Grâce aux connecteurs d'IA de Vonage, les développeurs disposent d'un chemin propre, moderne et adapté à Python pour créer des agents d'IA en temps réel, sans avoir à développer une infrastructure média à partir de zéro. Que vous souhaitiez créer un robot vocal, intégrer la synthèse vocale à un LLM, générer des réponses synthétisées en temps réel ou créer une expérience d'IA vidéo entièrement multimodale, Vonage vous fournit les bases dont vous avez besoin.

Les ressources suivantes peuvent vous aider à démarrer :