Vonage AI-Tools zum Aufbau von Echtzeit-KI-Agenten auf Vonage Video- und Voice APIs

Viele KI-Workflows, wie z. B. Sprache-zu-Text, LLM-gesteuerte Analyse, Sprachsynthese und multimodale Wahrnehmung, sind auf Echtzeit-Audio und -Video angewiesen. Entwickler, die mit den Voice- und Video-APIs von Vonage arbeiten, wünschen sich seit langem eine einfache und zuverlässige Möglichkeit, Medien aus einer aktiven Sitzung zu empfangen, sie mit KI zu verarbeiten und Antworten zurückzusenden.

Der Aufbau dieser Infrastruktur von Grund auf, die Verwaltung von WebSocket-Servern, binären Audio-Frames, Abtastraten, WebRTC-Verbindungen und zustandsabhängigen Sitzungen, ist komplex und fehleranfällig. Es verlangsamt Experimente, Proof-of-Concept-Entwicklungen und Produktionsbereitstellungen.

Vonage löst dieses Problem mit zwei sich ergänzenden Toolsets, die diese Reibung beseitigen und es Entwicklern ermöglichen, sich auf das zu konzentrieren, was sie entwickeln wollen. Diese Toolsets unterstützen eine breite Palette von Echtzeit-KI-Erlebnissen, darunter:

Sprache-zu-Text-Transkription
LLM-basierte Sitzungsassistenten
Analyse von Gefühlen oder Absichten bei Live-Anrufen
Interaktive Sprachroboter
Sprachübersetzung in Echtzeit
Automatisierte Notizen oder Zusammenfassungen
Audiomoderation und Erkennung von Verstößen

Vonage bietet eine Vielzahl von Konnektoren und Tools für die Integration von KI in Voice- und Video API-Sitzungen durch unsere Vonage AI Connectors. Ob Transkriptionsdienste, Konversationsagenten, Echtzeit-Übersetzungen oder Sentiment-Analysen - moderne Applikationen benötigen zunehmend Zugriff auf Audio- und Video-Rohdaten in Bewegung, nicht nur am Ende einer Aufnahme oder nach einem Datei-Upload. Um diese nächste Generation intelligenter Anwendungen zu unterstützen, bietet Vonage zwei Ansätze für Entwickler, die KI in Voice- und Video API-Sitzungen integrieren: die Vonage AI Connector SDKs für Entwickler, die ihre eigene KI-Middleware entwickeln, und die Vonage Pipecat-Integrationen für Entwickler, die ein flexibles, quelloffenes Agenten-Framework mit Unterstützung für verschiedene KI-Anbieter suchen.

Vonage AI Connector SDKs

Die Vonage AI Connector SDKs sind Python-Bibliotheken, die es Entwicklern erleichtern, Vonage Voice- und Video API-Sitzungen mit ihren eigenen AI-Endpunkten zu verbinden. Diese SDKs kümmern sich um die Medienaufbereitung und die API-Schnittstellen, sodass sich Entwickler ganz auf ihre KI-Logik und nicht auf die Infrastruktur konzentrieren können.

Es gibt zwei Vonage AI Connector SDKs, die jeweils für einen anderen Transport- und Anwendungsfall konzipiert sind:

	Audio Connector Server SDK	Video Connector Server SDK
API-Kompatibilität	Vonage Video API & Vonage Voice API	Nur Vonage Video API
Transport	WebSocket	WebRTC
Medien	Nur Audio	Audio + Video
Anwendungsfall	Überbrückung von Audio zu AI über WebSocket-Server	Connect AI als Teilnehmer einer Videositzung
Verfügbarkeit (PyPI-Paket)	vonage-audio-connector-server	vonage-video-connector

Audio Connector Server SDK

Das Audio Connector Server SDK ist eine Python WebSocket Server-Bibliothek, die Audio zwischen Vonage-Sitzungen und AI-Endpunkten überbrückt. Es funktioniert sowohl mit der Video API (über Audio Connector) als auch mit der Voice API (über Voice WebSockets) und ist damit die richtige Wahl für jeden AI-Anwendungsfall mit Audio-First über beide APIs.

Zu den wichtigsten Fähigkeiten gehören:

Ereignisgesteuerter WebSocket-Server zum Empfangen und Senden von PCM-Audio
Unterstützung für 8 kHz-, 16 kHz- und 24 kHz-Samples mit automatischer Rahmenverarbeitung
Saubere asynchrone Rückrufe für Verbindungs-, Trennungs-, Nachrichten- und Fehlerereignisse
Integrierte Pufferung und Zeitsteuerung für reibungslose Wiedergabe
Mehrere gleichzeitige Verbindungen für Multi-Agenten- oder Multi-Teilnehmer-Workflows
TLS-Unterstützung für sichere Produktionsimplementierungen

Video Connector Server SDK

Das Video Connector Server SDK ist eine Python WebRTC-Client-Bibliothek für Linux, die eine direkte Verbindung zu Vonage Video-Sitzungen herstellt. Im Gegensatz zum Audio Connector Server SDK unterstützt es sowohl Audio- als auch Videoströme und ist damit die richtige Wahl für Vonage Video Sessions, insbesondere wenn Ihr AI-Workflow Video verarbeiten oder generieren muss, eine höhere Audioqualität (bis zu 48 kHz oder Stereo) unterstützt oder wenn Sie die geringeren Latenzzeiten einer WebRTC-Verbindung wünschen.

Zu den wichtigsten Fähigkeiten gehören:

WebRTC-basierte Verbindung zu Vonage Video Sessions
Audio- und Videostream-Zugang zur und von der Videositzung
Unterstützung für bis zu 48 kHz-Audio-Samples und 1 (Mono) oder 2 (Stereo) Audiokanäle mit automatischer Frame-Verarbeitung
Unterstützung für eine Full HD-Auflösung (1080p) mit Kontrolle über Auflösung und Bildrate
Unterstützung für den Empfang von Live Captions-Daten aus der Sitzung
Python-freundliche Schnittstelle für die Integration von KI-Endpunkten
Entwickelt für Linux-basierte AI-Server-Implementierungen

Vonage Pipecat-Integrationen

Rohrkolben ist ein Open-Source-Python-Framework zur Orchestrierung komplexer KI-Agenten-Workflows für Audio, Video, Bilder und Text. Es bietet eine modulare, herstellerneutrale Pipeline, in der Entwickler STT-, LLM- und TTS-Anbieter - wie OpenAI, Deepgram, ElevenLabs oder AWS Nova Sonic - mischen und anpassen können, ohne Code für die Medienübersetzung schreiben zu müssen.

Vonage bietet zwei Integrationen mit Pipecat an, die jeweils einen anderen Transport verwenden:

	Vonage Audio Serialisierer für Pipecat	Vonage Video Transport für Pipecat
API-Kompatibilität	Vonage Video API & Vonage Voice API	Nur Vonage Video API
Transport	WebSocket	WebRTC
Medien	Nur Audio	Audio + Video
Verfügbarkeit	Vonage Audio Serializer für Pipecat in der Pipecat Distribution enthalten, mit Beispielen für Voice und Video APIs	Vonage Video Transport für Pipecat ab sofort im Vonage Entwicklerportal verfügbar, weitere Verbreitung folgt in Kürze
Am besten für	Die meisten Audio AI-Anwendungsfälle - Audio-First, breite API-Kompatibilität	Video API AI Anwendungsfälle, geringere Latenzanforderungen

Vonage Audio Serialisierer für Pipecat

Der Vonage Audio Serializer für Pipecat überbrückt Audio zwischen Vonage Sprach- und Videositzungen und einer Pipecat Verarbeitungspipeline über WebSocket. Er kümmert sich um die Konvertierung von Audio-Frames, die Anpassung der Abtastrate und DTMF-Metadaten, so dass Entwickler sich direkt mit der wachsenden Bibliothek von Pipecat AI-Knoten verbinden können, ohne einen Code für die Medienübersetzung schreiben zu müssen. Der Vonage Audio Serializer für Pipecat ist bereits in die Pipecat-Distribution integriert und enthält Beispiele für die Vonage Voice und Vonage Video APIs.

Vonage Video Transport für Pipecat

Der Vonage Video Transport für Pipecat verbindet KI-Agenten über WebRTC mit Vonage Video Sessions und bietet eine verbesserte Latenzzeit gegenüber WebSocket-basierten Implementierungen sowie volle Unterstützung für Audio- und Videostreams. Es ist die richtige Wahl für Video-KI-Anwendungsfälle oder jedes Szenario, bei dem die Latenz eine Priorität ist. Der Vonage Video Transport für Pipecat ist ab sofort auf dem Vonage Entwicklerportal verfügbar und arbeitet mit der Video API.

Welcher Weg ist der richtige für Sie?

Wählen Sie die AI Connector SDKs wenn Sie die volle Kontrolle über Ihre KI-Middleware haben möchten und es vorziehen, Ihre eigene Schnittstelle zu KI-Endpunkten mit Python zu entwickeln und zu besitzen.

Wählen Sie die Pipecat-Integrationen wenn Sie ein flexibles, quelloffenes Agenten-Framework mit verschiedenen STT-, LLM- und TTS-Anbietern wünschen und von den Optimierungen der Community und einem wachsenden KI-Ökosystem profitieren möchten.

Beide Wege werden von Vonage vollständig unterstützt und können je nach Ihrer Architektur genutzt werden.

Preisgestaltung

Bei den Vonage AI Connectors handelt es sich um Bibliotheken, die die Anbindung an AI ermöglichen und nach der Nutzungsrate der zugrundeliegenden Verbindung zur Videositzung oder zum Sprachanruf abgerechnet werden.

	Video API	Voice API
AI-Konnektoren	Keine Gebühr	Keine Gebühr
WebRTC-Verbindung	Pro Teilnehmer	K.A.
WebSocket-Verbindung	Audio-Anschlussrate	Pro WebSocket Dauer

Schlussfolgerung: Setzen Sie Ihren ersten KI-Agenten ein

Mit den Vonage AI Connectors steht Entwicklern ein sauberer, moderner, Python-fähiger Weg zur Erstellung von Echtzeit-KI-Agenten offen, ohne dass sie die Medieninfrastruktur von Grund auf neu entwickeln müssen. Ganz gleich, ob Sie einen Sprach-Bot erstellen, Sprache-zu-Text mit einem LLM integrieren, synthetische Antworten in Echtzeit generieren oder eine vollständig multimodale Video-KI-Erfahrung aufbauen möchten, Vonage bietet die Grundlagen, die Sie benötigen.

Die folgenden Ressourcen können Ihnen den Einstieg erleichtern: