Vonage Audio Serialisierer für Pipecat

Übersicht

Rohrkolben ist ein Open-Source-Framework für die Entwicklung von Sprach- und multimodalen konversationelle KI-Applikationen. Es orchestriert KI-Dienste, wie z. B. Sprache-zu-Text, Sprachmodelle und Text-to-Speech - zusammen mit Netzwerktransporten und Audio-/Videoverarbeitung um natürlich klingende Unterhaltungen mit niedriger Latenz zu erzeugen.

Die Vonage Audio Serialisierer für Pipecat ist eine Transportkomponente, die eine Pipecat Pipeline mit der Vonage-Plattform verbindet. Sie übernimmt die Konvertierung des Audioformats und die WebSocket WebSocket-Konnektivität, die erforderlich ist, um Audio von einer Vonage-Sprach- oder Videositzung zu empfangen und verarbeitete Audio in Echtzeit zurück.

Wie es funktioniert

Vonage leitet Audio über verwaltete WebSocket-Verbindungen an externe Dienste weiter. Der Vonage Audio Serializer fungiert als Protokolladapter zwischen diesem WebSocket-Stream und der internen Audio-Pipeline von Pipecat Audio-Pipeline:

  1. Ihre Pipecat-Anwendung startet einen WebSocket-Server, der den Vonage Serializer als Transportschicht.
  2. Vonage öffnet eine WebSocket-Verbindung zu Ihrem Server - entweder von einer Video-Sitzung über Audio-Anschlussoder von einem Sprachanruf über ein NCCO connect Aktion.
  3. Der Serialisierer wandelt das eingehende Vonage-Audioformat in die von Pipecat erwarteten PCM-Frames um, und speist sie in Ihre Pipeline ein.
  4. Ihre Pipeline verarbeitet die Audiodaten über ihre konfigurierten KI-Dienste und gibt eine Antwort zurück.
  5. Der Serializer konvertiert die Audioausgabe zurück in das von Vonage erwartete Format und sendet sie über den WebSocket, wo es den Sitzungsteilnehmern vorgespielt wird.

Beziehung zu anderen Vonage Pipecat-Integrationen

Vonage bietet zwei separate Pipecat-Integrationen an, die unterschiedliche Anwendungsfälle abdecken:

Integration Transport Anwendungsfall
Vonage Audio Serialisierer Audio WebSocket (Audio Connector / Voice NCCO) Reine Audio-KI-Pipelines für Sprach- oder Videositzungen
Videoanschluss Pipecat Integration WebRTC (Video-Anschluss) Pipelines, die auch Videos verarbeiten oder erzeugen, wie z. B. Video-Avatare

Verwenden Sie den Audio Serializer, wenn Ihre Pipeline nur Audio verarbeiten und zurückgeben muss. Verwenden Sie den Video Connector Transport, wenn Ihre Pipeline auch mit Videobildern arbeiten muss.

Wann wird der Vonage Audio Serializer verwendet?

  • KI-Sprachassistenten in Echtzeit: Setzen Sie einen LLM-gestützten Voice Bot innerhalb einer Vonage Video Sitzung oder bei einem eingehenden Telefonanruf.
  • Live-Transkription und Übersetzung: Übertragung der Audiodaten der Sitzung durch einen Transkriptionsdienst und übersetzte Sprache an die Teilnehmer zurückgeben.
  • Aufzeichnung und Analyse von Anrufen: Erfassen und analysieren Sie Gesprächsinhalte von Sprach- oder Videoanrufen Anrufen in Echtzeit.
  • Verarbeitung von Audioeffekten: Wenden Sie Filterung, Rauschunterdrückung oder andere Transformationen auf Audio, bevor es die Teilnehmer erreicht.
  • Automatisierte Moderation: Erkennen Sie nicht konforme oder unangemessene Äußerungen und reagieren Sie darauf auftritt.

Siehe auch