Vonage AI-Tools zum Aufbau von Echtzeit-KI-Agenten auf Vonage Video- und Voice APIs
Viele KI-Workflows, wie z. B. Sprache-zu-Text, LLM-gesteuerte Analyse, Sprachsynthese und multimodale Wahrnehmung, sind auf Echtzeit-Audio und -Video angewiesen. Entwickler, die mit den Voice- und Video-APIs von Vonage arbeiten, wünschen sich seit langem eine einfache und zuverlässige Möglichkeit, Medien aus einer aktiven Sitzung zu empfangen, sie mit KI zu verarbeiten und Antworten zurückzusenden.
Der Aufbau dieser Infrastruktur von Grund auf, die Verwaltung von WebSocket-Servern, binären Audio-Frames, Abtastraten, WebRTC-Verbindungen und zustandsabhängigen Sitzungen, ist komplex und fehleranfällig. Es verlangsamt Experimente, Proof-of-Concept-Entwicklungen und Produktionsbereitstellungen.
Vonage löst dieses Problem mit zwei sich ergänzenden Toolsets, die diese Reibung beseitigen und es Entwicklern ermöglichen, sich auf das zu konzentrieren, was sie entwickeln wollen. Diese Toolsets unterstützen eine breite Palette von Echtzeit-KI-Erlebnissen, darunter:
- Sprache-zu-Text-Transkription
- LLM-basierte Sitzungsassistenten
- Analyse von Gefühlen oder Absichten bei Live-Anrufen
- Interaktive Sprachroboter
- Sprachübersetzung in Echtzeit
- Automatisierte Notizen oder Zusammenfassungen
- Audiomoderation und Erkennung von Verstößen
Vonage bietet eine Vielzahl von Konnektoren und Tools für die Integration von KI in Voice- und Video API-Sitzungen durch unsere Vonage AI Connectors. Ob Transkriptionsdienste, Konversationsagenten, Echtzeit-Übersetzungen oder Sentiment-Analysen - moderne Applikationen benötigen zunehmend Zugriff auf Audio- und Video-Rohdaten in Bewegung, nicht nur am Ende einer Aufnahme oder nach einem Datei-Upload. Um diese nächste Generation intelligenter Anwendungen zu unterstützen, bietet Vonage zwei Ansätze für Entwickler, die KI in Voice- und Video API-Sitzungen integrieren: die Vonage AI Connector SDKs für Entwickler, die ihre eigene KI-Middleware entwickeln, und die Vonage Pipecat-Integrationen für Entwickler, die ein flexibles, quelloffenes Agenten-Framework mit Unterstützung für verschiedene KI-Anbieter suchen.
Vonage AI Connector SDKs
Die Vonage AI Connector SDKs sind Python-Bibliotheken, die es Entwicklern erleichtern, Vonage Voice- und Video API-Sitzungen mit ihren eigenen AI-Endpunkten zu verbinden. Diese SDKs kümmern sich um die Medienaufbereitung und die API-Schnittstellen, sodass sich Entwickler ganz auf ihre KI-Logik und nicht auf die Infrastruktur konzentrieren können.
Es gibt zwei Vonage AI Connector SDKs, die jeweils für einen anderen Transport- und Anwendungsfall konzipiert sind:
| Audio Connector Server SDK | Video Connector Server SDK | |
|---|---|---|
| API-Kompatibilität | Vonage Video API & Vonage Voice API | Nur Vonage Video API |
| Transport | WebSocket | WebRTC |
| Medien | Nur Audio | Audio + Video |
| Anwendungsfall | Überbrückung von Audio zu AI über WebSocket-Server | Connect AI als Teilnehmer einer Videositzung |
| Verfügbarkeit (PyPI-Paket) | vonage-audio-connector-server | vonage-video-connector |
Audio Connector Server SDK
Das Audio Connector Server SDK ist eine Python WebSocket Server-Bibliothek, die Audio zwischen Vonage-Sitzungen und AI-Endpunkten überbrückt. Es funktioniert sowohl mit der Video API (über Audio Connector) als auch mit der Voice API (über Voice WebSockets) und ist damit die richtige Wahl für jeden AI-Anwendungsfall mit Audio-First über beide APIs.
Zu den wichtigsten Fähigkeiten gehören:
- Ereignisgesteuerter WebSocket-Server zum Empfangen und Senden von PCM-Audio
- Unterstützung für 8 kHz-, 16 kHz- und 24 kHz-Samples mit automatischer Rahmenverarbeitung
- Saubere asynchrone Rückrufe für Verbindungs-, Trennungs-, Nachrichten- und Fehlerereignisse
- Integrierte Pufferung und Zeitsteuerung für reibungslose Wiedergabe
- Mehrere gleichzeitige Verbindungen für Multi-Agenten- oder Multi-Teilnehmer-Workflows
- TLS-Unterstützung für sichere Produktionsimplementierungen
Video Connector Server SDK
Das Video Connector Server SDK ist eine Python WebRTC-Client-Bibliothek für Linux, die eine direkte Verbindung zu Vonage Video-Sitzungen herstellt. Im Gegensatz zum Audio Connector Server SDK unterstützt es sowohl Audio- als auch Videoströme und ist damit die richtige Wahl für Vonage Video Sessions, insbesondere wenn Ihr AI-Workflow Video verarbeiten oder generieren muss, eine höhere Audioqualität (bis zu 48 kHz oder Stereo) unterstützt oder wenn Sie die geringeren Latenzzeiten einer WebRTC-Verbindung wünschen.
Zu den wichtigsten Fähigkeiten gehören:
- WebRTC-basierte Verbindung zu Vonage Video Sessions
- Audio- und Videostream-Zugang zur und von der Videositzung
- Unterstützung für bis zu 48 kHz-Audio-Samples und 1 (Mono) oder 2 (Stereo) Audiokanäle mit automatischer Frame-Verarbeitung
- Unterstützung für eine Full HD-Auflösung (1080p) mit Kontrolle über Auflösung und Bildrate
- Unterstützung für den Empfang von Live Captions-Daten aus der Sitzung
- Python-freundliche Schnittstelle für die Integration von KI-Endpunkten
- Entwickelt für Linux-basierte AI-Server-Implementierungen
Vonage Pipecat-Integrationen
Rohrkolben ist ein Open-Source-Python-Framework zur Orchestrierung komplexer KI-Agenten-Workflows für Audio, Video, Bilder und Text. Es bietet eine modulare, herstellerneutrale Pipeline, in der Entwickler STT-, LLM- und TTS-Anbieter - wie OpenAI, Deepgram, ElevenLabs oder AWS Nova Sonic - mischen und anpassen können, ohne Code für die Medienübersetzung schreiben zu müssen.
Vonage bietet zwei Integrationen mit Pipecat an, die jeweils einen anderen Transport verwenden:
| Vonage Audio Serialisierer für Pipecat | Vonage Video Transport für Pipecat | |
|---|---|---|
| API-Kompatibilität | Vonage Video API & Vonage Voice API | Nur Vonage Video API |
| Transport | WebSocket | WebRTC |
| Medien | Nur Audio | Audio + Video |
| Verfügbarkeit | Vonage Audio Serializer für Pipecat in der Pipecat Distribution enthalten, mit Beispielen für Voice und Video APIs | Vonage Video Transport für Pipecat ab sofort im Vonage Entwicklerportal verfügbar, weitere Verbreitung folgt in Kürze |
| Am besten für | Die meisten Audio AI-Anwendungsfälle - Audio-First, breite API-Kompatibilität | Video API AI Anwendungsfälle, geringere Latenzanforderungen |
Vonage Audio Serialisierer für Pipecat
Der Vonage Audio Serializer für Pipecat überbrückt Audio zwischen Vonage Sprach- und Videositzungen und einer Pipecat Verarbeitungspipeline über WebSocket. Er kümmert sich um die Konvertierung von Audio-Frames, die Anpassung der Abtastrate und DTMF-Metadaten, so dass Entwickler sich direkt mit der wachsenden Bibliothek von Pipecat AI-Knoten verbinden können, ohne einen Code für die Medienübersetzung schreiben zu müssen. Der Vonage Audio Serializer für Pipecat ist bereits in die Pipecat-Distribution integriert und enthält Beispiele für die Vonage Voice und Vonage Video APIs.
Vonage Video Transport für Pipecat
Der Vonage Video Transport für Pipecat verbindet KI-Agenten über WebRTC mit Vonage Video Sessions und bietet eine verbesserte Latenzzeit gegenüber WebSocket-basierten Implementierungen sowie volle Unterstützung für Audio- und Videostreams. Es ist die richtige Wahl für Video-KI-Anwendungsfälle oder jedes Szenario, bei dem die Latenz eine Priorität ist. Der Vonage Video Transport für Pipecat ist ab sofort auf dem Vonage Entwicklerportal verfügbar und arbeitet mit der Video API.
Welcher Weg ist der richtige für Sie?
Wählen Sie die AI Connector SDKs wenn Sie die volle Kontrolle über Ihre KI-Middleware haben möchten und es vorziehen, Ihre eigene Schnittstelle zu KI-Endpunkten mit Python zu entwickeln und zu besitzen.
Wählen Sie die Pipecat-Integrationen wenn Sie ein flexibles, quelloffenes Agenten-Framework mit verschiedenen STT-, LLM- und TTS-Anbietern wünschen und von den Optimierungen der Community und einem wachsenden KI-Ökosystem profitieren möchten.
Beide Wege werden von Vonage vollständig unterstützt und können je nach Ihrer Architektur genutzt werden.
Preisgestaltung
Bei den Vonage AI Connectors handelt es sich um Bibliotheken, die die Anbindung an AI ermöglichen und nach der Nutzungsrate der zugrundeliegenden Verbindung zur Videositzung oder zum Sprachanruf abgerechnet werden.
| Video API | Voice API | |
|---|---|---|
| AI-Konnektoren | Keine Gebühr | Keine Gebühr |
| WebRTC-Verbindung | Pro Teilnehmer | K.A. |
| WebSocket-Verbindung | Audio-Anschlussrate | Pro WebSocket Dauer |
Schlussfolgerung: Setzen Sie Ihren ersten KI-Agenten ein
Mit den Vonage AI Connectors steht Entwicklern ein sauberer, moderner, Python-fähiger Weg zur Erstellung von Echtzeit-KI-Agenten offen, ohne dass sie die Medieninfrastruktur von Grund auf neu entwickeln müssen. Ganz gleich, ob Sie einen Sprach-Bot erstellen, Sprache-zu-Text mit einem LLM integrieren, synthetische Antworten in Echtzeit generieren oder eine vollständig multimodale Video-KI-Erfahrung aufbauen möchten, Vonage bietet die Grundlagen, die Sie benötigen.
Die folgenden Ressourcen können Ihnen den Einstieg erleichtern: