Vonage Audio Serialisierer für Pipecat
Übersicht
Rohrkolben ist ein Open-Source-Framework für die Entwicklung von Sprach- und multimodalen konversationelle KI-Applikationen. Es orchestriert KI-Dienste, wie z. B. Sprache-zu-Text, Sprachmodelle und Text-to-Speech - zusammen mit Netzwerktransporten und Audio-/Videoverarbeitung um natürlich klingende Unterhaltungen mit niedriger Latenz zu erzeugen.
Die Vonage Audio Serialisierer für Pipecat ist eine Transportkomponente, die eine Pipecat Pipeline mit der Vonage-Plattform verbindet. Sie übernimmt die Konvertierung des Audioformats und die WebSocket WebSocket-Konnektivität, die erforderlich ist, um Audio von einer Vonage-Sprach- oder Videositzung zu empfangen und verarbeitete Audio in Echtzeit zurück.
Wie es funktioniert
Vonage leitet Audio über verwaltete WebSocket-Verbindungen an externe Dienste weiter. Der Vonage Audio Serializer fungiert als Protokolladapter zwischen diesem WebSocket-Stream und der internen Audio-Pipeline von Pipecat Audio-Pipeline:
- Ihre Pipecat-Anwendung startet einen WebSocket-Server, der den Vonage Serializer als Transportschicht.
- Vonage öffnet eine WebSocket-Verbindung zu Ihrem Server - entweder von einer Video-Sitzung über
Audio-Anschlussoder von einem Sprachanruf über ein NCCO
connectAktion. - Der Serialisierer wandelt das eingehende Vonage-Audioformat in die von Pipecat erwarteten PCM-Frames um, und speist sie in Ihre Pipeline ein.
- Ihre Pipeline verarbeitet die Audiodaten über ihre konfigurierten KI-Dienste und gibt eine Antwort zurück.
- Der Serializer konvertiert die Audioausgabe zurück in das von Vonage erwartete Format und sendet sie über den WebSocket, wo es den Sitzungsteilnehmern vorgespielt wird.
Beziehung zu anderen Vonage Pipecat-Integrationen
Vonage bietet zwei separate Pipecat-Integrationen an, die unterschiedliche Anwendungsfälle abdecken:
| Integration | Transport | Anwendungsfall |
|---|---|---|
| Vonage Audio Serialisierer | Audio WebSocket (Audio Connector / Voice NCCO) | Reine Audio-KI-Pipelines für Sprach- oder Videositzungen |
| Videoanschluss Pipecat Integration | WebRTC (Video-Anschluss) | Pipelines, die auch Videos verarbeiten oder erzeugen, wie z. B. Video-Avatare |
Verwenden Sie den Audio Serializer, wenn Ihre Pipeline nur Audio verarbeiten und zurückgeben muss. Verwenden Sie den Video Connector Transport, wenn Ihre Pipeline auch mit Videobildern arbeiten muss.
Wann wird der Vonage Audio Serializer verwendet?
- KI-Sprachassistenten in Echtzeit: Setzen Sie einen LLM-gestützten Voice Bot innerhalb einer Vonage Video Sitzung oder bei einem eingehenden Telefonanruf.
- Live-Transkription und Übersetzung: Übertragung der Audiodaten der Sitzung durch einen Transkriptionsdienst und übersetzte Sprache an die Teilnehmer zurückgeben.
- Aufzeichnung und Analyse von Anrufen: Erfassen und analysieren Sie Gesprächsinhalte von Sprach- oder Videoanrufen Anrufen in Echtzeit.
- Verarbeitung von Audioeffekten: Wenden Sie Filterung, Rauschunterdrückung oder andere Transformationen auf Audio, bevor es die Teilnehmer erreicht.
- Automatisierte Moderation: Erkennen Sie nicht konforme oder unangemessene Äußerungen und reagieren Sie darauf auftritt.
Siehe auch
- Pipecat mit einer Vonage-Sitzung verbinden - Schritt-für-Schritt Anleitung für Video- und Sprachsitzungen
- Audio-Anschluss - So streamt der Audio Connector Audio von einer Videositzung an einen WebSocket
- Audio Connector Server SDK - Bauen Sie Ihren eigenen eigenen WebSocket-Audioverarbeitungsserver ohne Pipecat
- Videoanschluss Pipecat Integration - Pipecat-Integration für Pipelines, die sowohl Video als auch Audio verarbeiten
- Pipecat-Dokumentation