https://a.storyblok.com/f/270183/1368x665/a76a0b7f5b/26may_dev-blog_ai-audio_pipecat.jpg

Einführung des Audio Connector SDK & Pipecat Serializer für AI Audio Anwendungen

Zuletzt aktualisiert am May 7, 2026

Lesedauer: 4 Minuten

Einführung

KI-Applikationen in Echtzeit verändern die Art und Weise, wie Entwickler Voice- und Video-Erlebnisse entwickeln. Ob Transkriptionsdienste, Konversationsagenten, Echtzeitübersetzung oder Stimmungsanalyse - moderne Applikationen benötigen zunehmend Zugriff auf Rohdaten in Bewegung, nicht nur am Ende einer Aufnahme oder nach einem Datei-Upload.

PipecatPipecat ist ein Open-Source-Framework, das die Integration der Video- und Voice APIs von Vonage mit Audio-Konnektoren verbessert, indem es eine modulare, herstellerneutrale Plattform für die Orchestrierung von KI-Workflows bietet. Mit Funktionen wie extrem niedriger Latenz, fortschrittlicher Erkennung von Sprachaktivitäten und multimodaler Unterstützung ermöglicht Pipecat Entwicklern die Erstellung von reaktionsschnellen und natürlichen KI-Erlebnissen. Seine Flexibilität ermöglicht die nahtlose Integration mit einer Reihe von KI-Modellen und -Diensten, was es zu einer idealen Wahl für die Entwicklung umfangreicher Audio- und Videoanwendungen in Echtzeit macht.

Um diese nächste Generation intelligenter Applications zu unterstützen, hat Vonage zwei ergänzende Tools speziell für Entwickler eingeführt: das Vonage Audio Connector Python Server SDK und der Vonage Serialisierer für Pipecat. Zusammen erleichtern sie das Audio-Streaming zwischen Vonage Video- und Voice-Sitzungen, WebSocket-Servern und KI-Frameworks wie OpenAI, Deepgram oder AWS Nova Sonic erheblich.

Dieser Blog gibt einen Überblick über diese Tools, erklärt, wie sie zusammenpassen, und bietet Referenzen für den Einsatz Ihres ersten KI-gesteuerten Agenten.

Warum Entwickler direkten Zugriff auf Echtzeit-Audio benötigen

Viele KI-Workflows - Sprache-zu-Text, LLM-gestützte Analyse, Sprachsynthese und multimodale Wahrnehmung - sind auf Echtzeit-Audio angewiesen. Entwickler, die mit den Voice- und Video-APIs von Vonage arbeiten, wünschen sich seit langem eine einfache und zuverlässige Möglichkeit, Audiodaten aus einer aktiven Sitzung zu empfangen, zu verarbeiten und Antworten zurückzusenden.

Der Vonage Audio Connector für die Video API und Voice API WebSocket Integration ermöglicht Entwicklern den Aufbau von WebSocket-Servern, die Vonage-Sitzungen mit AI-Workflows verbinden.

Der Aufbau von WebSocket-Servern mit niedriger Latenz, die Verwaltung binärer Audio-Frames, die Koordinierung von Abtastraten und die Aufrechterhaltung zustandsabhängiger Verbindungen können jedoch komplex und fehleranfällig sein. Diese Komplexität verlangsamt oft Experimente, Proof-of-Concept-Entwicklungen und Produktionsbereitstellungen.

Das Vonage Audio Connector SDK beseitigt diese Reibung.

Beispielhafte Anwendungsfälle

Die Toolchain unterstützt eine breite Palette von Echtzeit-KI-Erfahrungen, darunter:

  • Sprache-zu-Text-Transkription

  • LLM-basierte Sitzungsassistenten

  • Analyse von Gefühlen oder Absichten bei Live-Anrufen

  • Interaktive Voice-Bots

  • Sprachübersetzung in Echtzeit

  • Automatisierte Notizen oder Zusammenfassungen

  • Audiomoderation und Erkennung von Verstößen

Das Audio Connector SDK

Das folgende Diagramm zeigt die Architektur einer Video- oder Voice-Sitzung, die mit dem Audio Connector SDK über einen WebSocket integriert ist. Das SDK ist ein Python-Paket (verfügbar auf PyPI), das die Komplexität der Verwaltung von WebSocket-Audioströmen aus Vonage-Sitzungen abstrahiert.

Diagram of Vonage session sending audio via WebSocket to Audio Connector SDK, then to Customer App, and finally to AI Workflow.

Schlüsselkompetenzen

  • Ereignisgesteuerter WebSocket-Server zum Empfangen und Senden von PCM-Audio

  • Unterstützung für 8 kHz, 16 kHz und 24kHz Samples mit automatischer Rahmenverarbeitung

  • Saubere asynchrone Rückrufe für Connect-, Disconnect-, Message- und Error-Ereignisse

  • Integrierte Pufferung und Zeitsteuerung für reibungslose Wiedergabe

  • Mehrere gleichzeitige Verbindungen für Multi-Agenten- oder Multi-Teilnehmer-Workflows

  • TLS-Unterstützung für sichere Produktionsimplementierungen

So können sich die Entwickler ganz auf das konzentrieren, was sie bauen wollen - Transkriptionspipelines, Analysetools, Sprachassistenten -, ohne dass sie eine WebSocket-Infrastruktur schreiben müssen.

Erste Schritte mit dem Audio Connector SDK

Das SDK kann mit Hilfe eines Python-Paketmanagers aus dem Python Package Index installiert werden.

pip install vonage-audio-connector-server

Referenz

Die SDK-Entwicklerhandbuch bietet eine grundlegende Referenz zum Konfigurieren/Starten des WebSocket-Servers, zum Einrichten asynchroner Handler für die Sitzungs- und Audioverwaltung und zum Einspeisen von Audio in die Video-Sitzung über den WebSocket.

Informationen zum Öffnen einer WebSocket-Verbindung von einer Video-Sitzung zu einem Server unter Verwendung des SDK finden Sie auf der Audio Connector-Entwicklerseite. Informationen zum Öffnen einer WebSocket-Verbindung von einer Voice-Konversation zu einem Server unter Verwendung des SDK finden Sie auf der Voice WebSockets-Entwicklerseite.

Beispiel-Code

Sie können den Beispielcode für die Verwendung des Audio Connector SDK aus dem GitHub-Repository

Vonage Serialisierer für Pipecat

Pipecat ist ein Open-Source-Framework für die Orchestrierung komplexer KI-Workflows für Audio, Video, Bilder und Text. Für audio-orientierte Applikationen ist der neue Vonage Serializer für Pipecat als Brücke zwischen den Vonage Voice- und Video-Sitzungen und einer Pipecat-Verarbeitungspipeline.

Schlüsselkompetenzen

  • Konvertiert eingehende Vonage-Audio-Frames in das interne Frame-Format von Pipecat

  • Angleichung von Abtastraten und Audiocodierungen

  • Unterstützt DTMF und andere Metadaten

  • Konvertiert ausgehende Pipecat-Audio-Frames zurück in Vonage WebSocket-Frames

Das bedeutet, dass Entwickler die wachsende Liste der KI-Knoten von Pipecat - OpenAI Realtime, Deepgram, Whisper, ElevenLabs usw. - nutzen können, ohne einen Code für die Medienübersetzung schreiben zu müssen.

Der Serializer stellt eine direkte Verbindung zwischen dem Audio eines Live-Teilnehmers und einem vollständig programmierbaren AI-Workflow her.

Diagram showing a Vonage voice/video session with bi-directional WebSocket audio linked to a customer-deployed Pipecat application via serializer.

Referenz

Die Serializer-Anleitung bietet eine grundlegende Referenz für das Einrichten des Vonage Serializers mit Pipecat.

Setzen Sie Ihren ersten AI-Agenten ein

Verwendung des Vonage Audio Connector SDK oder Pipecat Serializer bietet Entwicklern eine saubere, moderne und Python-freundliche Möglichkeit, Echtzeit-Audio-Agenten zu erstellen, ohne WebSocket-Server oder Medien-Pipelines neu erfinden zu müssen.

Ganz gleich, ob Sie einen Voice-Bot erstellen, Sprache-zu-Text mit einem LLM integrieren, synthetische Antworten in Echtzeit generieren oder das Anrufverhalten analysieren möchten, diese Tools bieten Ihnen die erforderlichen Grundlagen.

Wenn Sie bereit sind, zu beginnen, erkunden Sie:

Schlussfolgerung

Mit diesen Tools können Sie Ihren ersten KI-Agenten in wenigen Minuten einrichten - und mit Zuversicht auf vollständig intelligente, medienkompatible Applikationen auf der Vonage Plattform hinarbeiten.

Haben Sie eine Frage oder möchten Sie uns mitteilen, was Sie gerade bauen?

Bleiben Sie auf dem Laufenden und halten Sie sich über die neuesten Nachrichten, Tipps und Veranstaltungen für Entwickler auf dem Laufenden.

Teilen Sie:

https://a.storyblok.com/f/270183/331x330/f4b074099d/michael-vernick.png
Michael VernickArchitekt für Kundenlösungen