https://a.storyblok.com/f/270183/1368x665/229d3bd67d/26may_dev-blog_ai-video-apps-conn-sdk-pipecat.jpg

Teilen Sie:

Michael VernickArchitekt für Kundenlösungen

Einführung von Video Connector SDK & Pipecat Transport für KI-Videoanwendungen

Zuletzt aktualisiert am May 28, 2026

#video-api

#pipecat

#ai

Lesedauer: 6 Minuten

Einführung

KI-Applikationen in Echtzeit verändern die Art und Weise, wie Entwickler Videoerlebnisse entwickeln. Ob KI-Voice-Bots, Video-Avatare, Echtzeit-Transkription, Emotionserkennung oder Live-Sprachübersetzung - moderne Applikationen benötigen zunehmend Echtzeit-Zugriff auf rohe Audio- und Videoströme und nicht nur nachträgliche Aufnahmen.

Bislang erforderte die Integration von KI-Workflows in eine Live-Sitzung von Vonage Video fundierte Kenntnisse in C++ und Low-Level-Medienhandling. Diese Hürde ist jetzt weg. Vonage hat zwei sich ergänzende, auf Python basierende Tools eingeführt, die speziell für Entwickler entwickelt wurden, die intelligente, medienspezifische Applikationen erstellen: das Video Connector Server SDK und das Vonage Video Transport für Pipecat.

Zusammen erleichtern sie das Streaming von Audio und Video zwischen Vonage Video-Sitzungen und KI-Frameworks wie OpenAI, Deepgram, AWS Nova Sonic, HeyGen und anderen erheblich. Dieser Blogbeitrag gibt einen Überblick über diese Tools, erklärt, wie sie zusammenpassen, und bietet Referenzen für die Bereitstellung Ihres ersten KI-gestützten Videoagenten.

Warum Entwickler direkten Zugriff auf Video und Audio in Echtzeit benötigen

Viele KI-Workflows, darunter Sprache-zu-Text, LLM-gesteuerte Analysen, Sprachsynthese, Verfolgung von Gesichtsausdrücken und multimodale Wahrnehmung, hängen von Echtzeitmedien ab. Entwickler, die mit der Vonage Video API arbeiten, wünschen sich seit langem eine einfache und zuverlässige Möglichkeit, Audio- und Videodaten aus einer aktiven Sitzung zu empfangen, sie mit KI zu verarbeiten und Antworten zurückzusenden.

Zuvor war die einzige serverseitige Option für den Zugriff auf Rohmedien aus einer Vonage Video-Sitzung das Linux C++ SDK. Dieses ist zwar leistungsfähig, aber aufgrund seiner geringen Komplexität eine steile Lernkurve, die Innovationen bremst und die Akzeptanz einschränkt, insbesondere bei Python-Entwicklern, die den Großteil der KI/ML-Community ausmachen.

Das Vonage Video Connector SDK beseitigt diese Reibung.

Beispielhafte Anwendungsfälle

Die Toolchain unterstützt eine breite Palette von Echtzeit-KI-Erfahrungen, darunter:

Voice und Video AI Agenten (Bots): interaktive Assistenten, die die Teilnehmer sehen und hören
Transkription und Untertitel in Echtzeit: Live-Sprache-zu-Text für Barrierefreiheit und Verständlichkeit
Sitzungszusammenfassungen und Notizen: automatisierte Notizen mit Rednererkennung
Sprachübersetzung: Audioübersetzung in Echtzeit für alle Teilnehmer
Erkennung von Gefühlen und GesichtsausdrückenStimmungsanalyse aus Videobildern
Überwachung von Patienten und Untersuchungen: Fernüberwachung mit Live-Videoübertragungen
Video-Avatare: KI-generierte Videoantworten synchronisiert mit der Stimme

Moderation von Inhalten: Erkennung unangemessener Audio- oder Bildinhalte in Echtzeit

Was das Video Connector SDK bietet

Das Video Connector Server SDK ist ein Python-Paket (verfügbar auf PyPI), das als serverseitiger WebRTC-Client für Vonage Video-Sitzungen fungiert. Es handelt sich um einen Python-Wrapper um das Vonage Linux C++ SDK, der Headless-Applikationen in der Cloud ermöglicht, ohne dass C++-Kenntnisse erforderlich sind.

A diagram showing how the Video Connector Server SDK is integrated into an end-to-end video session. Topology of Video Connector Server SDK

Schlüsselkompetenzen

Server-seitige WebRTC-Teilnahme: Teilnahme an einer Vonage Video-Sitzung als server-seitiger Client
Bidirektionales Audio und Video: Audio- und Videostreams in Echtzeit veröffentlichen und abonnieren
Hochwertige MedienformateAudio wird als PCM 16-Bit (bis zu 48 kHz) geliefert; Video als 8-Bit-Rohbilder bis zu FHD 1080p30
Automatisierte Medienkontinuität: intelligenter Umgang mit Lücken in der Medienbereitstellung
Abonnement für Untertitel (beta): automatisch generierte Untertitel aus der Sitzung erhalten
Identifizierung einzelner Audioströme (beta): Unterscheidung und Verarbeitung von Audiopaketen pro Teilnehmer
Ereignisgesteuerte Architektur: umfangreiche asynchrone Rückrufe für Sitzungs- und Medienereignisse
Cloud- und Headless-Bereitstellung: entwickelt für den serverseitigen Einsatz in containerisierten Umgebungen

So können sich die Entwickler ganz auf das konzentrieren, was sie aufbauen wollen - KI-Pipelines, Analysetools, Videobots -, ohne WebRTC- oder Medieninfrastrukturcode schreiben zu müssen.

Erste Schritte mit dem Video Connector SDK

Das SDK kann über den Python-Paket-Indexinstalliert werden und basiert auf einem ereignisgesteuerten Arbeitsablauf: Verbinden Sie sich mit einer Sitzung, abonnieren Sie Teilnehmerströme, empfangen Sie Audio- und Videoframes über Callbacks, verarbeiten Sie sie mit Ihrer KI-Pipeline und veröffentlichen Sie die Antworten wieder in der Sitzung.

Referenz

Die Video Connector-Entwicklerdokumentation bietet eine umfassende Referenz für die Konfiguration von Sitzungen, die Einrichtung von Medien-Handlern und die Veröffentlichung von Audio und Video in einer Sitzung.

Vonage Video Transport für Pipecat

Pipecat ist ein Open-Source-Python-Framework zur Orchestrierung komplexer KI-Workflows für Audio, Video, Bilder und Text. Es bietet eine modulare, herstellerneutrale Plattform für den Aufbau von Echtzeit-KI-Pipelines. Es verbindet Sprache-zu-Text, LLMs, Text-zu-Sprache, Video-Avatare und mehr mit minimalem Programmieraufwand.

Für videofokussierte Applikationen ist der neue Vonage Video Transport für Pipecat als Brücke zwischen einer Live Vonage Video Sitzung und einer Pipecat Verarbeitungspipeline. Anders als ein Serialisierer (der nur die Konvertierung von Audioformaten vornimmt), ermöglicht ein Transport eine vollständige bidirektionale Audio und Video zwischen einer Vonage WebRTC-Sitzung und der Pipecat-Pipeline zu übertragen.

Flowchart of a video setup: Vonage Video Session connects via WebRTC to a Customer Application Server, which processes raw audio/video and links to AI Engines.

Der Vonage-Transport für Pipecat

Verbindet eine Vonage Video Sitzung mit einer Pipecat Pipeline über das Video Connector SDK
Unterstützt bidirektionale Audio- und Video-Streams
Erbt von Pipecat's BaseTransport, BaseInputTransport, und BaseOutputTransport abstrakten Klassen
Initialisierung mit einer Vonage-Sitzungs-ID, einem Token und einer optionalen Liste von Stream-IDs zum Abonnieren
Ermöglicht den Zugang zum gesamten Pipecat-Ökosystem der KI-Dienste

Das bedeutet, dass Entwickler die wachsende Liste der KI-Integrationen von Pipecat - OpenAI Realtime, AWS Nova Sonic, Deepgram, ElevenLabs, HeyGen, Tavus, Simli und andere - nutzen können, ohne Medienübersetzung oder WebRTC-Code schreiben zu müssen.

Pipecat AI-Dienst-Integrationen

Pipecat unterstützt eine Vielzahl von KI-Diensten, die ständig erweitert werden:

Kategorie	Unterstützte Dienste
Sprache-zu-Text	Deepgram, OpenAI Whisper, AssemblyAI, Azure, Google, AWS Transcribe, und mehr
LLM	OpenAI, Anthropic, Gemini, Grok, Bedrock, Ollama, und mehr
Text-to-Speech	ElevenLabs, Cartesia, OpenAI, AWS Polly, Google, und mehr
Sprache-zu-Sprache	AWS Nova Sonic, OpenAI Realtime, Gemini Live
Video-Avatare	HeyGen, Simli, Tavus

Die aktuelle Liste finden Sie auf der Seite der von Pipecat unterstützten Dienste.

Referenz

Die Vonage Video Connector Pipecat Transport Entwicklerdokumentation bietet eine umfassende Referenz für die Einrichtung von Vonage Transport und die Erstellung Ihres ersten Pipecat-gestützten Video-Agenten.

Beispiel-Applikationen

Um Ihnen einen schnellen Einstieg zu ermöglichen, stellt Vonage Beispiel-Applikationen zur Verfügung, die reale Anwendungsfälle demonstrieren:

Echo-ServerEcho Server: eine einfache Anwendung, die Audio- und Videodaten an die Sitzung zurücksendet, nützlich zur Überprüfung der Einrichtung
Video-Avatar mit Untertiteln (Pipecat)Pipecat: eine vollständige Pipeline mit AWS Nova Sonic für Sprache-zu-Sprache und HeyGen für KI-generierte Video-Avatar-Antworten, mit Live-Untertiteln
Audio-Beschreibung von Video (Pipecat)Pipecat: nutzt Moondream AI für die Videoerkennung und Text-to-Speech, um das Geschehen im Video-Stream in Echtzeit zu beschreiben

Beispielcode ist verfügbar im Release-Repository. Die ersten Schritte sind einfach:

Laden Sie den SDK-Tarball aus dem Release-Repository herunter und entpacken Sie ihn
Docker installieren
Öffnen Sie das README.md im Hauptverzeichnis und erstellen Sie das Docker-Image
Erstellen Sie eine Vonage Video-Sitzung und eine session.json Datei mit Ihren Sitzungsanmeldeinformationen
Führen Sie die Echo-Server- oder Pipecat-Beispiele aus, indem Sie die README.md in jedem Beispielverzeichnis

Wie die Werkzeuge zusammenpassen

Vonage bietet jetzt eine komplette Python-Toolchain für die Integration von KI in Voice- und Video-Sitzungen:

Werkzeug	Transport	Fähigkeiten
Audio-Anschluss-SDK	WebSocket	Nur Audio (Voice API- und Video API-Sitzungen)
Pipecat-Serialisierer	WebSocket	Nur Audio (Voice API- und Video API-Sitzungen)
Video Connector SDK	WebRTC	Audio + Video (Video API-Sitzungen)
Pipecat Transport	WebRTC	Audio + Video (Video API-Sitzungen)

Wenn Ihr Anwendungsfall Nur Audioist, wird das Audio Connector SDK und Pipecat Serializer sind der richtige Ausgangspunkt. Wenn Sie vollständigen Audio- und Video-Zugang-für Avatare, Emotionserkennung, visuelle KI oder multimodale Agenten - das Video Connector SDK und Pipecat Transport sind die richtigen Werkzeuge für Sie.

Schlussfolgerung

Das Vonage Video Connector SDK und Pipecat Transport bieten einen schlanken, modernen und Python-basierten Ansatz für die Erstellung von Echtzeit-Audio- und Video-Agenten. Diese Tools machen es für Entwickler überflüssig, komplexe WebRTC-Interna zu verwalten, C++-Code zu schreiben oder Medien-Pipelines manuell zu erstellen.

Ganz gleich, ob Sie einen Video-Avatar-Bot erstellen, Sprache-zu-Text mit einem LLM integrieren, Gesichtsausdrücke in Echtzeit analysieren oder einen KI-gesteuerten Meeting-Assistenten entwickeln möchten - diese Tools bieten die Grundlagen, die Sie benötigen.

Wenn Sie bereit sind, zu beginnen, erkunden Sie:

Sie können jetzt Ihren ersten KI-Video-Agenten in wenigen Minuten einrichten und mit Zuversicht auf vollständig intelligente, medienkompatible Anwendungen auf der Vonage Plattform aufbauen.

Teilen Sie:

Michael VernickArchitekt für Kundenlösungen