https://a.storyblok.com/f/270183/1368x665/229d3bd67d/26may_dev-blog_ai-video-apps-conn-sdk-pipecat.jpg

Einführung von Video Connector SDK & Pipecat Transport für KI-Videoanwendungen

Zuletzt aktualisiert am May 28, 2026

Lesedauer: 6 Minuten

Einführung

KI-Applikationen in Echtzeit verändern die Art und Weise, wie Entwickler Videoerlebnisse entwickeln. Ob KI-Voice-Bots, Video-Avatare, Echtzeit-Transkription, Emotionserkennung oder Live-Sprachübersetzung - moderne Applikationen benötigen zunehmend Echtzeit-Zugriff auf rohe Audio- und Videoströme und nicht nur nachträgliche Aufnahmen.

Bislang erforderte die Integration von KI-Workflows in eine Live-Sitzung von Vonage Video fundierte Kenntnisse in C++ und Low-Level-Medienhandling. Diese Hürde ist jetzt weg. Vonage hat zwei sich ergänzende, auf Python basierende Tools eingeführt, die speziell für Entwickler entwickelt wurden, die intelligente, medienspezifische Applikationen erstellen: das Video Connector Server SDK und das Vonage Video Transport für Pipecat.

Zusammen erleichtern sie das Streaming von Audio und Video zwischen Vonage Video-Sitzungen und KI-Frameworks wie OpenAI, Deepgram, AWS Nova Sonic, HeyGen und anderen erheblich. Dieser Blogbeitrag gibt einen Überblick über diese Tools, erklärt, wie sie zusammenpassen, und bietet Referenzen für die Bereitstellung Ihres ersten KI-gestützten Videoagenten.

Warum Entwickler direkten Zugriff auf Video und Audio in Echtzeit benötigen

Viele KI-Workflows, darunter Sprache-zu-Text, LLM-gesteuerte Analysen, Sprachsynthese, Verfolgung von Gesichtsausdrücken und multimodale Wahrnehmung, hängen von Echtzeitmedien ab. Entwickler, die mit der Vonage Video API arbeiten, wünschen sich seit langem eine einfache und zuverlässige Möglichkeit, Audio- und Videodaten aus einer aktiven Sitzung zu empfangen, sie mit KI zu verarbeiten und Antworten zurückzusenden.

Zuvor war die einzige serverseitige Option für den Zugriff auf Rohmedien aus einer Vonage Video-Sitzung das Linux C++ SDK. Dieses ist zwar leistungsfähig, aber aufgrund seiner geringen Komplexität eine steile Lernkurve, die Innovationen bremst und die Akzeptanz einschränkt, insbesondere bei Python-Entwicklern, die den Großteil der KI/ML-Community ausmachen.

Das Vonage Video Connector SDK beseitigt diese Reibung.

Beispielhafte Anwendungsfälle

Die Toolchain unterstützt eine breite Palette von Echtzeit-KI-Erfahrungen, darunter:

  • Voice und Video AI Agenten (Bots): interaktive Assistenten, die die Teilnehmer sehen und hören

  • Transkription und Untertitel in Echtzeit: Live-Sprache-zu-Text für Barrierefreiheit und Verständlichkeit

  • Sitzungszusammenfassungen und Notizen: automatisierte Notizen mit Rednererkennung

  • Sprachübersetzung: Audioübersetzung in Echtzeit für alle Teilnehmer

  • Erkennung von Gefühlen und GesichtsausdrückenStimmungsanalyse aus Videobildern

  • Überwachung von Patienten und Untersuchungen: Fernüberwachung mit Live-Videoübertragungen

  • Video-Avatare: KI-generierte Videoantworten synchronisiert mit der Stimme

Moderation von Inhalten: Erkennung unangemessener Audio- oder Bildinhalte in Echtzeit

Was das Video Connector SDK bietet

Das Video Connector Server SDK ist ein Python-Paket (verfügbar auf PyPI), das als serverseitiger WebRTC-Client für Vonage Video-Sitzungen fungiert. Es handelt sich um einen Python-Wrapper um das Vonage Linux C++ SDK, der Headless-Applikationen in der Cloud ermöglicht, ohne dass C++-Kenntnisse erforderlich sind.

A diagram showing how the Video Connector Server SDK is integrated into an end-to-end video session.Topology of Video Connector Server SDK

Schlüsselkompetenzen

  • Server-seitige WebRTC-Teilnahme: Teilnahme an einer Vonage Video-Sitzung als server-seitiger Client

  • Bidirektionales Audio und Video: Audio- und Videostreams in Echtzeit veröffentlichen und abonnieren

  • Hochwertige MedienformateAudio wird als PCM 16-Bit (bis zu 48 kHz) geliefert; Video als 8-Bit-Rohbilder bis zu FHD 1080p30

  • Automatisierte Medienkontinuität: intelligenter Umgang mit Lücken in der Medienbereitstellung

  • Abonnement für Untertitel (beta): automatisch generierte Untertitel aus der Sitzung erhalten

  • Identifizierung einzelner Audioströme (beta): Unterscheidung und Verarbeitung von Audiopaketen pro Teilnehmer

  • Ereignisgesteuerte Architektur: umfangreiche asynchrone Rückrufe für Sitzungs- und Medienereignisse

  • Cloud- und Headless-Bereitstellung: entwickelt für den serverseitigen Einsatz in containerisierten Umgebungen

So können sich die Entwickler ganz auf das konzentrieren, was sie aufbauen wollen - KI-Pipelines, Analysetools, Videobots -, ohne WebRTC- oder Medieninfrastrukturcode schreiben zu müssen.

Erste Schritte mit dem Video Connector SDK

Das SDK kann über den Python-Paket-Indexinstalliert werden und basiert auf einem ereignisgesteuerten Arbeitsablauf: Verbinden Sie sich mit einer Sitzung, abonnieren Sie Teilnehmerströme, empfangen Sie Audio- und Videoframes über Callbacks, verarbeiten Sie sie mit Ihrer KI-Pipeline und veröffentlichen Sie die Antworten wieder in der Sitzung.

Referenz

Die Video Connector-Entwicklerdokumentation bietet eine umfassende Referenz für die Konfiguration von Sitzungen, die Einrichtung von Medien-Handlern und die Veröffentlichung von Audio und Video in einer Sitzung.

Vonage Video Transport für Pipecat

Pipecat ist ein Open-Source-Python-Framework zur Orchestrierung komplexer KI-Workflows für Audio, Video, Bilder und Text. Es bietet eine modulare, herstellerneutrale Plattform für den Aufbau von Echtzeit-KI-Pipelines. Es verbindet Sprache-zu-Text, LLMs, Text-zu-Sprache, Video-Avatare und mehr mit minimalem Programmieraufwand.

Für videofokussierte Applikationen ist der neue Vonage Video Transport für Pipecat als Brücke zwischen einer Live Vonage Video Sitzung und einer Pipecat Verarbeitungspipeline. Anders als ein Serialisierer (der nur die Konvertierung von Audioformaten vornimmt), ermöglicht ein Transport eine vollständige bidirektionale Audio und Video zwischen einer Vonage WebRTC-Sitzung und der Pipecat-Pipeline zu übertragen.

Flowchart of a video setup: Vonage Video Session connects via WebRTC to a Customer Application Server, which processes raw audio/video and links to AI Engines.

Der Vonage-Transport für Pipecat

  • Verbindet eine Vonage Video Sitzung mit einer Pipecat Pipeline über das Video Connector SDK

  • Unterstützt bidirektionale Audio- und Video-Streams

  • Erbt von Pipecat's BaseTransport, BaseInputTransport, und BaseOutputTransport abstrakten Klassen

  • Initialisierung mit einer Vonage-Sitzungs-ID, einem Token und einer optionalen Liste von Stream-IDs zum Abonnieren

  • Ermöglicht den Zugang zum gesamten Pipecat-Ökosystem der KI-Dienste

Das bedeutet, dass Entwickler die wachsende Liste der KI-Integrationen von Pipecat - OpenAI Realtime, AWS Nova Sonic, Deepgram, ElevenLabs, HeyGen, Tavus, Simli und andere - nutzen können, ohne Medienübersetzung oder WebRTC-Code schreiben zu müssen.

Pipecat AI-Dienst-Integrationen

Pipecat unterstützt eine Vielzahl von KI-Diensten, die ständig erweitert werden:

Kategorie

Unterstützte Dienste

Sprache-zu-Text

Deepgram, OpenAI Whisper, AssemblyAI, Azure, Google, AWS Transcribe, und mehr

LLM

OpenAI, Anthropic, Gemini, Grok, Bedrock, Ollama, und mehr

Text-to-Speech

ElevenLabs, Cartesia, OpenAI, AWS Polly, Google, und mehr

Sprache-zu-Sprache

AWS Nova Sonic, OpenAI Realtime, Gemini Live

Video-Avatare

HeyGen, Simli, Tavus

Die aktuelle Liste finden Sie auf der Seite der von Pipecat unterstützten Dienste.

Referenz

Die Vonage Video Connector Pipecat Transport Entwicklerdokumentation bietet eine umfassende Referenz für die Einrichtung von Vonage Transport und die Erstellung Ihres ersten Pipecat-gestützten Video-Agenten.

Beispiel-Applikationen

Um Ihnen einen schnellen Einstieg zu ermöglichen, stellt Vonage Beispiel-Applikationen zur Verfügung, die reale Anwendungsfälle demonstrieren:

  • Echo-ServerEcho Server: eine einfache Anwendung, die Audio- und Videodaten an die Sitzung zurücksendet, nützlich zur Überprüfung der Einrichtung

  • Video-Avatar mit Untertiteln (Pipecat)Pipecat: eine vollständige Pipeline mit AWS Nova Sonic für Sprache-zu-Sprache und HeyGen für KI-generierte Video-Avatar-Antworten, mit Live-Untertiteln

  • Audio-Beschreibung von Video (Pipecat)Pipecat: nutzt Moondream AI für die Videoerkennung und Text-to-Speech, um das Geschehen im Video-Stream in Echtzeit zu beschreiben

Beispielcode ist verfügbar im Release-Repository. Die ersten Schritte sind einfach:

  1. Laden Sie den SDK-Tarball aus dem Release-Repository herunter und entpacken Sie ihn

  2. Docker installieren

  3. Öffnen Sie das README.md im Hauptverzeichnis und erstellen Sie das Docker-Image

  4. Erstellen Sie eine Vonage Video-Sitzung und eine session.json Datei mit Ihren Sitzungsanmeldeinformationen

  5. Führen Sie die Echo-Server- oder Pipecat-Beispiele aus, indem Sie die README.md in jedem Beispielverzeichnis

Wie die Werkzeuge zusammenpassen

Vonage bietet jetzt eine komplette Python-Toolchain für die Integration von KI in Voice- und Video-Sitzungen:

Werkzeug

Transport

Fähigkeiten

Audio-Anschluss-SDK

WebSocket

Nur Audio

(Voice API- und Video API-Sitzungen)

Pipecat-Serialisierer

WebSocket

Nur Audio

(Voice API- und Video API-Sitzungen)

Video Connector SDK

WebRTC

Audio + Video

(Video API-Sitzungen)

Pipecat Transport

WebRTC

Audio + Video

(Video API-Sitzungen)

Wenn Ihr Anwendungsfall Nur Audioist, wird das Audio Connector SDK und Pipecat Serializer sind der richtige Ausgangspunkt. Wenn Sie vollständigen Audio- und Video-Zugang-für Avatare, Emotionserkennung, visuelle KI oder multimodale Agenten - das Video Connector SDK und Pipecat Transport sind die richtigen Werkzeuge für Sie.

Schlussfolgerung

Das Vonage Video Connector SDK und Pipecat Transport bieten einen schlanken, modernen und Python-basierten Ansatz für die Erstellung von Echtzeit-Audio- und Video-Agenten. Diese Tools machen es für Entwickler überflüssig, komplexe WebRTC-Interna zu verwalten, C++-Code zu schreiben oder Medien-Pipelines manuell zu erstellen.

Ganz gleich, ob Sie einen Video-Avatar-Bot erstellen, Sprache-zu-Text mit einem LLM integrieren, Gesichtsausdrücke in Echtzeit analysieren oder einen KI-gesteuerten Meeting-Assistenten entwickeln möchten - diese Tools bieten die Grundlagen, die Sie benötigen.

Wenn Sie bereit sind, zu beginnen, erkunden Sie:

Sie können jetzt Ihren ersten KI-Video-Agenten in wenigen Minuten einrichten und mit Zuversicht auf vollständig intelligente, medienkompatible Anwendungen auf der Vonage Plattform aufbauen.

Haben Sie eine Frage oder möchten Sie uns mitteilen, was Sie gerade bauen?

Bleiben Sie auf dem Laufenden und halten Sie sich über die neuesten Nachrichten, Tipps und Veranstaltungen für Entwickler auf dem Laufenden.

Teilen Sie:

https://a.storyblok.com/f/270183/331x330/f4b074099d/michael-vernick.png
Michael VernickArchitekt für Kundenlösungen