Vonage Video API AI-Funktionen und -Lösungen
Vonage Video stellt APIs und SDKs zur Verfügung, die den Zugriff auf die Video- und Audioströme einer Live-Videositzung und die Änderung dieser Ströme mithilfe von KI-Tools von Vonage und Drittanbietern sowie anderen Diensten ermöglichen.
Diese Änderungen können in Echtzeit innerhalb einer laufenden Vonage-Videositzung vorgenommen werden. Das bedeutet, dass die Teilnehmer der Sitzung die Änderungen direkt miterleben können.
Verbessern Sie Video-Applikationen mit KI
Die Vonage Medienprozessor bietet über die Video-Client-SDKs Zugriff auf die rohen Audio- und Videoströme, um Transformationsvorgänge an einzelnen Video- und Audiospuren durchzuführen. Auf diese Weise können Sie Audio- oder Videoströme mit Vonage ändern oder über Dienste von Drittanbietern die gewünschten Änderungen vornehmen.
Die Live Captions API ermöglicht die Transkription von Audiostreams für Echtzeit-Untertitel innerhalb der Videositzung. Der Dienst wird verwendet, um sofortige Transkriptionen für die automatische Spracherkennung (ASR) und Speech-to-Text (STT) bereitzustellen, z. B. für Bildunterschriften, Transkriptionen und Übersetzungen.

Ähnlich verhält es sich mit der Audio-Anschluss bietet über eine Websocket-Schnittstelle Zugang zu den Rohdaten einer Vonage-Videositzung, die Sie dann an Ihre eigenen verwalteten KI-Dienste, wie Microsofts Azure AI-Sprachdienst.
Die Post-Call-Transkription in Videositzungen bietet Transkriptionen und Zusammenfassungen auf der Grundlage einer aufgezeichneten Datei. Dies ist nützlich für Besprechungsnotizen, Zusammenfassungen von Besprechungen und Compliance-Anwendungsfälle.
Wir haben eine Reihe von Anwendungsfällen zusammen mit den Funktionen und dem Beispielcode zusammengestellt, die Ihnen den Einstieg erleichtern können. Sie können sich auch die Verwandte Ressourcen Abschnitt unten, um loszulegen, oder werfen Sie einen Blick auf diese Tabelle, um zu sehen, welche unserer Funktionen für Sie am besten geeignet sein könnten.
| Ich möchte... | Name des Merkmals | Code-Referenzen (Dokumentation, Beispiele, How-Tos) |
|---|---|---|
| SPRECHEN IN TEXT | ||
| Meine Besprechung mit einer Transkription aufzeichnen | Transkription nach dem Telefonat | Dokumentation, Beispiel-App, Webinar |
| Zusammenfassung meines Treffens | Transkription nach dem Anruf mit Zusammenfassung | Dokumentation, Beispiel-App |
| Untertitel zu meinen Meetings hinzufügen | Live-Unterschriften | Dokumentation, Beispiel-App, Webinar |
| Erfassen von Notizen in Echtzeit | Live-Unterschriften | Dokumentation |
| Benutzer in eine andere Sprache übersetzen (Text) | Audio-Anschluss | Blog-Artikel |
| Moderates Benutzer-Audio | Signalisierung, Stummschaltung des Herausgebers | Blog-Artikel |
| GRUNDLEGENDE MEDIENVERARBEITUNG | ||
| Videohintergrund verwischen (Web) | Hintergrund Unschärfe | Hintergrund Unschärfe/Ersatz, Beispiel-App |
| Videohintergrund verwischen (nativ) | Medienprozessor-APIs | Dokumentation |
| Videohintergrund ersetzen (Web) | Hintergrund Ersetzung | Hintergrund Unschärfe/Ersatz |
| Ersetzen des Videohintergrunds (nativ) | Medienprozessor-APIs | Dokumentation |
| Wasserzeichen zu Streams hinzufügen | Medienprozessor-APIs | Wasserzeichen & QR-Codes |
| QR-Codes hinzufügen | Medienprozessor-APIs | Wasserzeichen & QR-Codes |
| Hintergrundgeräusche entfernen | Rauschunterdrückung | Rauschunterdrückung |
| Audio mit Effekten modulieren | Medienprozessor-APIs | |
| COMPUTERVISION | ||
| Beachten Sie, wenn jemand seine Hand hebt | Medienprozessor-APIs | Blog-Artikel |
| Erkennen, wenn jemand aus dem Bildschirm schaut | Medienprozessor-APIs | Blog-Artikel |
| Objekte im Rahmen sehen | Medienprozessor-APIs | Bildanalyse |
| BOTS UND AGENTENGESTÜTZTE KI | ||
| Echtzeit-Stimmung des Anrufers abrufen | Audio-Anschluss | Sentiment-Analyse |
| Traditioneller Chatbot | Audio-Anschluss | |
| Automatisches Übersetzen der Sprache des Benutzers in eine andere Sprache | Audio-Anschluss | |
| Aufbau einer KI-Pipeline (STT→LLM/AI Agent → TTS) | Audio-Anschluss | Beispiel-App |
| Speech to Speech AI Agent Verarbeitung | Audio-Anschluss | |
| Abspielen einer AI-Sprachansage in einer Videositzung | Audio-Anschluss |
Verwandte Ressourcen
- Medienprozessor: Entdecken Sie, wie Sie Videoströme erfassen und verändern können.
- Audio-Anschluss: Erfahren Sie, wie Sie auf die Rohdaten von Live-Videositzungen von Vonage zugreifen und diese bearbeiten können.
- Blog-Beiträge: Sehen Sie sich Beispiel-Tutorials an, wie Live-Videositzungen von Vonage mithilfe von KI verbessert werden können.