Audio Connector Server SDK

Übersicht

Die Vonage Audio Connector Server SDK ist eine Python-Bibliothek zur Erstellung serverseitiger WebSocket Endpunkten, die PCM-Audio in Echtzeit von Vonage Video API-Sitzungen senden und empfangen. Sie ist aufgebaut auf der Basis der Audio-Anschlussmit dem Sie rohe Audioströme aus einer Streams aus einer Live-Sitzung extrahieren und an einen externen WebSocket-Server weiterleiten.

Das SDK abstrahiert das Low-Level-WebSocket-Protokoll, den Verbindungslebenszyklus, die Pufferung von Audio-Frames und Timing-Management, so dass Sie sich auf die Audioverarbeitung und die Integration von KI-Diensten konzentrieren können.

Wie es funktioniert

Wenn eine Vonage Video-Sitzung den Audio Connector verwendet, öffnet der Medienrouter der Sitzung eine WebSocket Verbindung zu Ihrem Server und beginnt mit dem Streaming von PCM-Audio. Das Audio Connector Server SDK verarbeitet diese Verbindung über ein ereignisgesteuertes Modell:

  1. Das SDK startet einen WebSocket-Server, der auf einem konfigurierbaren Host und Port lauscht.
  2. Wenn Audio Connector eine Verbindung öffnet, feuert das SDK eine on_connect Ereignis und übergibt ein Client-Handle an Ihren Anwendungscode.
  3. Ihre Anwendung registriert Handler auf dem Client-Handle, um Audio-Frames zu empfangen (on_message), Unterbrechung der Verbindung erkennen (on_disconnect), und Fehler behandeln (on_error).
  4. Ihre Anwendung verarbeitet die Audiodaten, indem sie sie beispielsweise an einen Sprach-zu-Text-Dienst weiterleitet. Dienst weiterleitet und die verarbeiteten Audio- oder Kontrollnachrichten über dasselbe Client-Handle.

Das SDK verwaltet die Audiopufferung und das Frame-Timing intern und gewährleistet eine reibungslose Wiedergabe Synchronisation der Wiedergabe, wenn Sie Audio zurück in die Sitzung senden.

Schlüsselkompetenzen

  • Ereignisgesteuerte Architektur: Server-Lebenszyklus (Start, Stop) und Verbindungsereignisse (connect, Trennen, Nachricht, Fehler) werden über asynchrone Rückrufe gehandhabt, so dass Ihre Anwendungslogik von der Verbindungsverwaltung entkoppelt.
  • Bi-direktionales Echtzeit-Audio: Empfangen Sie PCM-Rohdaten von der Sitzung und senden Sie verarbeitete PCM-Audio zurück, mit konfigurierbaren Abtastraten (8kHz, 16kHz, 24kHz).
  • Mehrere gleichzeitige Verbindungen: Mehrere Audio-Connector-Sitzungen können gleichzeitig verarbeitet werden, Geeignet für mandantenfähige oder skalierte AI-Workflows.
  • SSL/TLS-Unterstützung: Sichere WebSocket-Verbindungen mit einem bereitgestellten SSL-Kontext für die Produktion Einsätze.
  • Verwaltung von Audio-Frames: Integrierte Pufferung und Zeitsteuerung synchronisieren ausgehende Audio Frames, so dass Sie die Pacing-Logik nicht selbst implementieren müssen.

Wann wird dieses SDK verwendet?

Verwenden Sie das Audio Connector Server SDK, wenn Sie Live-Audio von Vonage Video-Sitzungen mit der mit einer serverseitigen Verarbeitungspipeline verbinden müssen. Zu den üblichen Szenarien gehören:

  • Konversationsfähige KI-Assistenten: Erstellen Sie Sprachroboter mit einer Sprache-zu-Text → LLM → Text-zu-Sprache-Pipeline direkt in einer Video-Sitzung.
  • Live-Transkription und Übersetzung: Streamen Sie Audiodaten an einen Transkriptionsdienst und geben Sie Untertitel oder übersetzte Sprache in Echtzeit zurück.
  • Stimmungs- und Tonanalyse: Erkennen von Emotionen oder Compliance-Signalen bei Live-Anrufen.
  • Biometrische Stimme: Identifizieren oder authentifizieren Sie Sprecher anhand ihres Audiostroms.
  • Coaching in Echtzeit: KI-generiertes Feedback für Agenten während Kundenanrufen.
  • Automatisierte Erfassung von Notizen: Erstellen Sie Zusammenfassungen, Abschriften und Aktionspunkte aus den Audiodaten der Sitzung.
  • Moderation des Inhalts: Kennzeichnen Sie unangemessene oder nicht konforme Äußerungen, sobald sie geschehen.

Wenn Ihr Anwendungsfall neben Audio auch Videoverarbeitung oder Video-Avatare umfasst, sollten Sie die Video-Anschluss oder die Videoanschluss Pipecat Integration stattdessen.

Wenn Sie eine Verbindung zu einer vorgefertigten Pipecat AI-Framework-Pipeline herstellen möchten, anstatt Ihre eigene eigene Audioverarbeitung zu implementieren, lesen Sie die Vonage Audio Serialisierer für Pipecat.

Siehe auch