Vonage Video API AI-Funktionen und -Lösungen

Vonage Video stellt APIs und SDKs zur Verfügung, die den Zugriff auf die Video- und Audioströme einer Live-Videositzung und die Änderung dieser Ströme mithilfe von KI-Tools von Vonage und Drittanbietern sowie anderen Diensten ermöglichen.

Diese Änderungen können in Echtzeit innerhalb einer laufenden Vonage-Videositzung vorgenommen werden. Das bedeutet, dass die Teilnehmer der Sitzung die Änderungen direkt miterleben können.

Verbessern Sie Video-Applikationen mit KI

Die Vonage Medienprozessor bietet über die Video-Client-SDKs Zugriff auf die rohen Audio- und Videoströme, um Transformationsvorgänge an einzelnen Video- und Audiospuren durchzuführen. Auf diese Weise können Sie Audio- oder Videoströme mit Vonage ändern oder über Dienste von Drittanbietern die gewünschten Änderungen vornehmen.

Die Live Captions API ermöglicht die Transkription von Audiostreams für Echtzeit-Untertitel innerhalb der Videositzung. Der Dienst wird verwendet, um sofortige Transkriptionen für die automatische Spracherkennung (ASR) und Speech-to-Text (STT) bereitzustellen, z. B. für Bildunterschriften, Transkriptionen und Übersetzungen.

Ähnlich verhält es sich mit der Audio-Anschluss bietet über eine Websocket-Schnittstelle Zugang zu den Rohdaten einer Vonage-Videositzung, die Sie dann an Ihre eigenen verwalteten KI-Dienste, wie Microsofts Azure AI-Sprachdienst.

Die Post-Call-Transkription in Videositzungen bietet Transkriptionen und Zusammenfassungen auf der Grundlage einer aufgezeichneten Datei. Dies ist nützlich für Besprechungsnotizen, Zusammenfassungen von Besprechungen und Compliance-Anwendungsfälle.

Wir haben eine Reihe von Anwendungsfällen zusammen mit den Funktionen und dem Beispielcode zusammengestellt, die Ihnen den Einstieg erleichtern können. Sie können sich auch die Verwandte Ressourcen Abschnitt unten, um loszulegen, oder werfen Sie einen Blick auf diese Tabelle, um zu sehen, welche unserer Funktionen für Sie am besten geeignet sein könnten.

Ich möchte...	Name des Merkmals	Code-Referenzen (Dokumentation, Beispiele, How-Tos)
SPRECHEN IN TEXT
Meine Besprechung mit einer Transkription aufzeichnen	Transkription nach dem Telefonat	Dokumentation, Beispiel-App, Webinar
Zusammenfassung meines Treffens	Transkription nach dem Anruf mit Zusammenfassung	Dokumentation, Beispiel-App
Untertitel zu meinen Meetings hinzufügen	Live-Unterschriften	Dokumentation, Beispiel-App, Webinar
Erfassen von Notizen in Echtzeit	Live-Unterschriften	Dokumentation
Benutzer in eine andere Sprache übersetzen (Text)	Audio-Anschluss	Blog-Artikel
Moderates Benutzer-Audio	Signalisierung, Stummschaltung des Herausgebers	Blog-Artikel
GRUNDLEGENDE MEDIENVERARBEITUNG
Videohintergrund verwischen (Web)	Hintergrund Unschärfe	Hintergrund Unschärfe/Ersatz, Beispiel-App
Videohintergrund verwischen (nativ)	Medienprozessor-APIs	Dokumentation
Videohintergrund ersetzen (Web)	Hintergrund Ersetzung	Hintergrund Unschärfe/Ersatz
Ersetzen des Videohintergrunds (nativ)	Medienprozessor-APIs	Dokumentation
Wasserzeichen zu Streams hinzufügen	Medienprozessor-APIs	Wasserzeichen & QR-Codes
QR-Codes hinzufügen	Medienprozessor-APIs	Wasserzeichen & QR-Codes
Hintergrundgeräusche entfernen	Rauschunterdrückung	Rauschunterdrückung
Audio mit Effekten modulieren	Medienprozessor-APIs
COMPUTERVISION
Beachten Sie, wenn jemand seine Hand hebt	Medienprozessor-APIs	Blog-Artikel
Erkennen, wenn jemand aus dem Bildschirm schaut	Medienprozessor-APIs	Blog-Artikel
Objekte im Rahmen sehen	Medienprozessor-APIs	Bildanalyse
BOTS UND AGENTENGESTÜTZTE KI
Echtzeit-Stimmung des Anrufers abrufen	Audio-Anschluss	Sentiment-Analyse
Traditioneller Chatbot	Audio-Anschluss
Automatisches Übersetzen der Sprache des Benutzers in eine andere Sprache	Audio-Anschluss
Aufbau einer KI-Pipeline (STT→LLM/AI Agent → TTS)	Audio-Anschluss	Beispiel-App
Speech to Speech AI Agent Verarbeitung	Audio-Anschluss
Abspielen einer AI-Sprachansage in einer Videositzung	Audio-Anschluss