Audio Connector Server SDK
Übersicht
Die Vonage Audio Connector Server SDK ist eine Python-Bibliothek zur Erstellung serverseitiger WebSocket Endpunkten, die PCM-Audio in Echtzeit von Vonage Video API-Sitzungen senden und empfangen. Sie ist aufgebaut auf der Basis der Audio-Anschlussmit dem Sie rohe Audioströme aus einer Streams aus einer Live-Sitzung extrahieren und an einen externen WebSocket-Server weiterleiten.
Das SDK abstrahiert das Low-Level-WebSocket-Protokoll, den Verbindungslebenszyklus, die Pufferung von Audio-Frames und Timing-Management, so dass Sie sich auf die Audioverarbeitung und die Integration von KI-Diensten konzentrieren können.
Wie es funktioniert
Wenn eine Vonage Video-Sitzung den Audio Connector verwendet, öffnet der Medienrouter der Sitzung eine WebSocket Verbindung zu Ihrem Server und beginnt mit dem Streaming von PCM-Audio. Das Audio Connector Server SDK verarbeitet diese Verbindung über ein ereignisgesteuertes Modell:
- Das SDK startet einen WebSocket-Server, der auf einem konfigurierbaren Host und Port lauscht.
- Wenn Audio Connector eine Verbindung öffnet, feuert das SDK eine
on_connectEreignis und übergibt ein Client-Handle an Ihren Anwendungscode. - Ihre Anwendung registriert Handler auf dem Client-Handle, um Audio-Frames zu empfangen
(
on_message), Unterbrechung der Verbindung erkennen (on_disconnect), und Fehler behandeln (on_error). - Ihre Anwendung verarbeitet die Audiodaten, indem sie sie beispielsweise an einen Sprach-zu-Text-Dienst weiterleitet. Dienst weiterleitet und die verarbeiteten Audio- oder Kontrollnachrichten über dasselbe Client-Handle.
Das SDK verwaltet die Audiopufferung und das Frame-Timing intern und gewährleistet eine reibungslose Wiedergabe Synchronisation der Wiedergabe, wenn Sie Audio zurück in die Sitzung senden.
Schlüsselkompetenzen
- Ereignisgesteuerte Architektur: Server-Lebenszyklus (Start, Stop) und Verbindungsereignisse (connect, Trennen, Nachricht, Fehler) werden über asynchrone Rückrufe gehandhabt, so dass Ihre Anwendungslogik von der Verbindungsverwaltung entkoppelt.
- Bi-direktionales Echtzeit-Audio: Empfangen Sie PCM-Rohdaten von der Sitzung und senden Sie verarbeitete PCM-Audio zurück, mit konfigurierbaren Abtastraten (8kHz, 16kHz, 24kHz).
- Mehrere gleichzeitige Verbindungen: Mehrere Audio-Connector-Sitzungen können gleichzeitig verarbeitet werden, Geeignet für mandantenfähige oder skalierte AI-Workflows.
- SSL/TLS-Unterstützung: Sichere WebSocket-Verbindungen mit einem bereitgestellten SSL-Kontext für die Produktion Einsätze.
- Verwaltung von Audio-Frames: Integrierte Pufferung und Zeitsteuerung synchronisieren ausgehende Audio Frames, so dass Sie die Pacing-Logik nicht selbst implementieren müssen.
Wann wird dieses SDK verwendet?
Verwenden Sie das Audio Connector Server SDK, wenn Sie Live-Audio von Vonage Video-Sitzungen mit der mit einer serverseitigen Verarbeitungspipeline verbinden müssen. Zu den üblichen Szenarien gehören:
- Konversationsfähige KI-Assistenten: Erstellen Sie Sprachroboter mit einer Sprache-zu-Text → LLM → Text-zu-Sprache-Pipeline direkt in einer Video-Sitzung.
- Live-Transkription und Übersetzung: Streamen Sie Audiodaten an einen Transkriptionsdienst und geben Sie Untertitel oder übersetzte Sprache in Echtzeit zurück.
- Stimmungs- und Tonanalyse: Erkennen von Emotionen oder Compliance-Signalen bei Live-Anrufen.
- Biometrische Stimme: Identifizieren oder authentifizieren Sie Sprecher anhand ihres Audiostroms.
- Coaching in Echtzeit: KI-generiertes Feedback für Agenten während Kundenanrufen.
- Automatisierte Erfassung von Notizen: Erstellen Sie Zusammenfassungen, Abschriften und Aktionspunkte aus den Audiodaten der Sitzung.
- Moderation des Inhalts: Kennzeichnen Sie unangemessene oder nicht konforme Äußerungen, sobald sie geschehen.
Wenn Ihr Anwendungsfall neben Audio auch Videoverarbeitung oder Video-Avatare umfasst, sollten Sie die Video-Anschluss oder die Videoanschluss Pipecat Integration stattdessen.
Wenn Sie eine Verbindung zu einer vorgefertigten Pipecat AI-Framework-Pipeline herstellen möchten, anstatt Ihre eigene eigene Audioverarbeitung zu implementieren, lesen Sie die Vonage Audio Serialisierer für Pipecat.
Siehe auch
- Einrichten des Audio Connector Server SDK - Schritt-für-Schritt-Anleitung Installation und Konfiguration
- Audio-Anschluss - Wie der zugrunde liegende Audio Connector Funktion Audio von einer Sitzung zu einem WebSocket streamt
- Vonage Audio Serialisierer für Pipecat - Verbindung von Pipecat-Pipelines mit Vonage-Sitzungen