
Einführung von Video Connector SDK & Pipecat Transport für KI-Videoanwendungen
Lesedauer: 6 Minuten
Einführung
KI-Applikationen in Echtzeit verändern die Art und Weise, wie Entwickler Videoerlebnisse entwickeln. Ob KI-Voice-Bots, Video-Avatare, Echtzeit-Transkription, Emotionserkennung oder Live-Sprachübersetzung - moderne Applikationen benötigen zunehmend Echtzeit-Zugriff auf rohe Audio- und Videoströme und nicht nur nachträgliche Aufnahmen.
Bislang erforderte die Integration von KI-Workflows in eine Live-Sitzung von Vonage Video fundierte Kenntnisse in C++ und Low-Level-Medienhandling. Diese Hürde ist jetzt weg. Vonage hat zwei sich ergänzende, auf Python basierende Tools eingeführt, die speziell für Entwickler entwickelt wurden, die intelligente, medienspezifische Applikationen erstellen: das Video Connector Server SDK und das Vonage Video Transport für Pipecat.
Zusammen erleichtern sie das Streaming von Audio und Video zwischen Vonage Video-Sitzungen und KI-Frameworks wie OpenAI, Deepgram, AWS Nova Sonic, HeyGen und anderen erheblich. Dieser Blogbeitrag gibt einen Überblick über diese Tools, erklärt, wie sie zusammenpassen, und bietet Referenzen für die Bereitstellung Ihres ersten KI-gestützten Videoagenten.
Warum Entwickler direkten Zugriff auf Video und Audio in Echtzeit benötigen
Viele KI-Workflows, darunter Sprache-zu-Text, LLM-gesteuerte Analysen, Sprachsynthese, Verfolgung von Gesichtsausdrücken und multimodale Wahrnehmung, hängen von Echtzeitmedien ab. Entwickler, die mit der Vonage Video API arbeiten, wünschen sich seit langem eine einfache und zuverlässige Möglichkeit, Audio- und Videodaten aus einer aktiven Sitzung zu empfangen, sie mit KI zu verarbeiten und Antworten zurückzusenden.
Zuvor war die einzige serverseitige Option für den Zugriff auf Rohmedien aus einer Vonage Video-Sitzung das Linux C++ SDK. Dieses ist zwar leistungsfähig, aber aufgrund seiner geringen Komplexität eine steile Lernkurve, die Innovationen bremst und die Akzeptanz einschränkt, insbesondere bei Python-Entwicklern, die den Großteil der KI/ML-Community ausmachen.
Das Vonage Video Connector SDK beseitigt diese Reibung.
Beispielhafte Anwendungsfälle
Die Toolchain unterstützt eine breite Palette von Echtzeit-KI-Erfahrungen, darunter:
Voice und Video AI Agenten (Bots): interaktive Assistenten, die die Teilnehmer sehen und hören
Transkription und Untertitel in Echtzeit: Live-Sprache-zu-Text für Barrierefreiheit und Verständlichkeit
Sitzungszusammenfassungen und Notizen: automatisierte Notizen mit Rednererkennung
Sprachübersetzung: Audioübersetzung in Echtzeit für alle Teilnehmer
Erkennung von Gefühlen und GesichtsausdrückenStimmungsanalyse aus Videobildern
Überwachung von Patienten und Untersuchungen: Fernüberwachung mit Live-Videoübertragungen
Video-Avatare: KI-generierte Videoantworten synchronisiert mit der Stimme
Moderation von Inhalten: Erkennung unangemessener Audio- oder Bildinhalte in Echtzeit
Was das Video Connector SDK bietet
Das Video Connector Server SDK ist ein Python-Paket (verfügbar auf PyPI), das als serverseitiger WebRTC-Client für Vonage Video-Sitzungen fungiert. Es handelt sich um einen Python-Wrapper um das Vonage Linux C++ SDK, der Headless-Applikationen in der Cloud ermöglicht, ohne dass C++-Kenntnisse erforderlich sind.
Topology of Video Connector Server SDK
Schlüsselkompetenzen
Server-seitige WebRTC-Teilnahme: Teilnahme an einer Vonage Video-Sitzung als server-seitiger Client
Bidirektionales Audio und Video: Audio- und Videostreams in Echtzeit veröffentlichen und abonnieren
Hochwertige MedienformateAudio wird als PCM 16-Bit (bis zu 48 kHz) geliefert; Video als 8-Bit-Rohbilder bis zu FHD 1080p30
Automatisierte Medienkontinuität: intelligenter Umgang mit Lücken in der Medienbereitstellung
Abonnement für Untertitel (beta): automatisch generierte Untertitel aus der Sitzung erhalten
Identifizierung einzelner Audioströme (beta): Unterscheidung und Verarbeitung von Audiopaketen pro Teilnehmer
Ereignisgesteuerte Architektur: umfangreiche asynchrone Rückrufe für Sitzungs- und Medienereignisse
Cloud- und Headless-Bereitstellung: entwickelt für den serverseitigen Einsatz in containerisierten Umgebungen
So können sich die Entwickler ganz auf das konzentrieren, was sie aufbauen wollen - KI-Pipelines, Analysetools, Videobots -, ohne WebRTC- oder Medieninfrastrukturcode schreiben zu müssen.
Erste Schritte mit dem Video Connector SDK
Das SDK kann über den Python-Paket-Indexinstalliert werden und basiert auf einem ereignisgesteuerten Arbeitsablauf: Verbinden Sie sich mit einer Sitzung, abonnieren Sie Teilnehmerströme, empfangen Sie Audio- und Videoframes über Callbacks, verarbeiten Sie sie mit Ihrer KI-Pipeline und veröffentlichen Sie die Antworten wieder in der Sitzung.
Referenz
Die Video Connector-Entwicklerdokumentation bietet eine umfassende Referenz für die Konfiguration von Sitzungen, die Einrichtung von Medien-Handlern und die Veröffentlichung von Audio und Video in einer Sitzung.
Vonage Video Transport für Pipecat
Pipecat ist ein Open-Source-Python-Framework zur Orchestrierung komplexer KI-Workflows für Audio, Video, Bilder und Text. Es bietet eine modulare, herstellerneutrale Plattform für den Aufbau von Echtzeit-KI-Pipelines. Es verbindet Sprache-zu-Text, LLMs, Text-zu-Sprache, Video-Avatare und mehr mit minimalem Programmieraufwand.
Für videofokussierte Applikationen ist der neue Vonage Video Transport für Pipecat als Brücke zwischen einer Live Vonage Video Sitzung und einer Pipecat Verarbeitungspipeline. Anders als ein Serialisierer (der nur die Konvertierung von Audioformaten vornimmt), ermöglicht ein Transport eine vollständige bidirektionale Audio und Video zwischen einer Vonage WebRTC-Sitzung und der Pipecat-Pipeline zu übertragen.

Der Vonage-Transport für Pipecat
Verbindet eine Vonage Video Sitzung mit einer Pipecat Pipeline über das Video Connector SDK
Unterstützt bidirektionale Audio- und Video-Streams
Erbt von Pipecat's
BaseTransport,BaseInputTransport, undBaseOutputTransportabstrakten KlassenInitialisierung mit einer Vonage-Sitzungs-ID, einem Token und einer optionalen Liste von Stream-IDs zum Abonnieren
Ermöglicht den Zugang zum gesamten Pipecat-Ökosystem der KI-Dienste
Das bedeutet, dass Entwickler die wachsende Liste der KI-Integrationen von Pipecat - OpenAI Realtime, AWS Nova Sonic, Deepgram, ElevenLabs, HeyGen, Tavus, Simli und andere - nutzen können, ohne Medienübersetzung oder WebRTC-Code schreiben zu müssen.
Pipecat AI-Dienst-Integrationen
Pipecat unterstützt eine Vielzahl von KI-Diensten, die ständig erweitert werden:
Kategorie | Unterstützte Dienste | |
Sprache-zu-Text | Deepgram, OpenAI Whisper, AssemblyAI, Azure, Google, AWS Transcribe, und mehr | |
LLM | OpenAI, Anthropic, Gemini, Grok, Bedrock, Ollama, und mehr | |
Text-to-Speech | ElevenLabs, Cartesia, OpenAI, AWS Polly, Google, und mehr | |
Sprache-zu-Sprache | AWS Nova Sonic, OpenAI Realtime, Gemini Live | |
Video-Avatare | HeyGen, Simli, Tavus | |
Die aktuelle Liste finden Sie auf der Seite der von Pipecat unterstützten Dienste.
Referenz
Die Vonage Video Connector Pipecat Transport Entwicklerdokumentation bietet eine umfassende Referenz für die Einrichtung von Vonage Transport und die Erstellung Ihres ersten Pipecat-gestützten Video-Agenten.
Beispiel-Applikationen
Um Ihnen einen schnellen Einstieg zu ermöglichen, stellt Vonage Beispiel-Applikationen zur Verfügung, die reale Anwendungsfälle demonstrieren:
Echo-ServerEcho Server: eine einfache Anwendung, die Audio- und Videodaten an die Sitzung zurücksendet, nützlich zur Überprüfung der Einrichtung
Video-Avatar mit Untertiteln (Pipecat)Pipecat: eine vollständige Pipeline mit AWS Nova Sonic für Sprache-zu-Sprache und HeyGen für KI-generierte Video-Avatar-Antworten, mit Live-Untertiteln
Audio-Beschreibung von Video (Pipecat)Pipecat: nutzt Moondream AI für die Videoerkennung und Text-to-Speech, um das Geschehen im Video-Stream in Echtzeit zu beschreiben
Beispielcode ist verfügbar im Release-Repository. Die ersten Schritte sind einfach:
Laden Sie den SDK-Tarball aus dem Release-Repository herunter und entpacken Sie ihn
Docker installieren
Öffnen Sie das
README.mdim Hauptverzeichnis und erstellen Sie das Docker-ImageErstellen Sie eine Vonage Video-Sitzung und eine
session.jsonDatei mit Ihren SitzungsanmeldeinformationenFühren Sie die Echo-Server- oder Pipecat-Beispiele aus, indem Sie die
README.mdin jedem Beispielverzeichnis
Wie die Werkzeuge zusammenpassen
Vonage bietet jetzt eine komplette Python-Toolchain für die Integration von KI in Voice- und Video-Sitzungen:
Werkzeug | Transport | Fähigkeiten |
|---|---|---|
Audio-Anschluss-SDK | WebSocket | Nur Audio (Voice API- und Video API-Sitzungen) |
Pipecat-Serialisierer | WebSocket | Nur Audio (Voice API- und Video API-Sitzungen) |
Video Connector SDK | WebRTC | Audio + Video (Video API-Sitzungen) |
Pipecat Transport | WebRTC | Audio + Video (Video API-Sitzungen) |
Wenn Ihr Anwendungsfall Nur Audioist, wird das Audio Connector SDK und Pipecat Serializer sind der richtige Ausgangspunkt. Wenn Sie vollständigen Audio- und Video-Zugang-für Avatare, Emotionserkennung, visuelle KI oder multimodale Agenten - das Video Connector SDK und Pipecat Transport sind die richtigen Werkzeuge für Sie.
Schlussfolgerung
Das Vonage Video Connector SDK und Pipecat Transport bieten einen schlanken, modernen und Python-basierten Ansatz für die Erstellung von Echtzeit-Audio- und Video-Agenten. Diese Tools machen es für Entwickler überflüssig, komplexe WebRTC-Interna zu verwalten, C++-Code zu schreiben oder Medien-Pipelines manuell zu erstellen.
Ganz gleich, ob Sie einen Video-Avatar-Bot erstellen, Sprache-zu-Text mit einem LLM integrieren, Gesichtsausdrücke in Echtzeit analysieren oder einen KI-gesteuerten Meeting-Assistenten entwickeln möchten - diese Tools bieten die Grundlagen, die Sie benötigen.
Wenn Sie bereit sind, zu beginnen, erkunden Sie:
Sie können jetzt Ihren ersten KI-Video-Agenten in wenigen Minuten einrichten und mit Zuversicht auf vollständig intelligente, medienkompatible Anwendungen auf der Vonage Plattform aufbauen.
Haben Sie eine Frage oder möchten Sie uns mitteilen, was Sie gerade bauen?
Beteiligen Sie sich am Gespräch auf dem Vonage Community Slack
Abonnieren Sie den Entwickler-Newsletter
Folgen Sie uns auf X (früher Twitter) für Updates
Sehen Sie sich die Tutorials auf unserem YouTube-Kanal
Verbinden Sie sich mit uns auf der Vonage Entwickler-Seite auf LinkedIn
Bleiben Sie auf dem Laufenden und halten Sie sich über die neuesten Nachrichten, Tipps und Veranstaltungen für Entwickler auf dem Laufenden.