Fonctionnalités et solutions de l'API Video AI de Vonage
Video Vonage fournit des API et des SDK qui permettent d'accéder aux flux vidéo et audio d'une session vidéo en direct et de modifier ces flux à l'aide d'outils d'IA de Vonage et de tiers, ainsi que d'autres services.
Ces modifications peuvent être effectuées en temps réel dans le cadre d'une session vidéo Vonage en cours. Cela signifie que les membres de la session peuvent expérimenter les modifications au fur et à mesure qu'elles se produisent.
Améliorer les applications vidéo grâce à l'IA
Les Processeur média de Vonage permet d'accéder aux flux audio et vidéo bruts via les SDK du client vidéo afin d'effectuer des opérations de transformation sur des pistes vidéo et audio individuelles. Cela vous permet de modifier les flux audio ou vidéo avec Vonage ou de passer par des services tiers pour effectuer les modifications souhaitées.
L'API Live Captions permet de transcrire des flux audio pour des sous-titres en temps réel au sein de la session vidéo. Le service est utilisé pour fournir des transcriptions instantanées pour la reconnaissance automatique de la parole (ASR) et la conversion de la parole en texte (STT), comme le sous-titrage à l'écran, les transcriptions et les traductions.

De même, le Connecteur audio permet d'accéder à l'audio brut d'une session vidéo Vonage par le biais d'une interface websocket, que vous pouvez ensuite envoyer à vos propres services d'IA gérés, tels que Le service Azure AI Speech de Microsoft.
La transcription après appel dans les sessions vidéo fournit des transcriptions et des résumés basés sur un fichier enregistré. Cette fonction est utile pour les notes de réunion, les résumés de réunion et les cas d'utilisation liés à la conformité.
Nous avons rassemblé une variété de cas d'utilisation avec les fonctionnalités et les exemples de code qui peuvent vous aider à démarrer. Vous pouvez également consulter la page Ressources connexes ci-dessous pour commencer ou jetez un coup d'œil à ce tableau pour voir lesquelles de nos fonctionnalités pourraient vous convenir le mieux.
| Je veux... | Nom de la fonctionnalité | Références de code (documentation, échantillons, modes d'emploi) |
|---|---|---|
| DISCOURS AU TEXTE | ||
| Enregistrer ma réunion avec une transcription | Transcription après appel | Documentation, Exemple d'application, Webinaire |
| Résumé de ma réunion | Transcription sur appel avec résumé | Documentation, Exemple d'application |
| Ajouter des sous-titres à mes réunions | Sous-titres en direct | Documentation, Exemple d'application, Webinaire |
| Prendre des notes en temps réel | Sous-titres en direct | Documentation |
| Traduire les utilisateurs dans une autre langue (texte) | Connecteur audio | Article de blog |
| Audio modéré pour l'utilisateur | Signalisation, éditeur Mute | Article de blog |
| TRAITEMENT DE BASE DES MÉDIAS | ||
| Flouter l'arrière-plan d'une vidéo (Web) | Flou d'arrière-plan | Flou d'arrière-plan/remplacement, Exemple d'application |
| Flouter l'arrière-plan de la vidéo (Native) | API du processeur de médias | Documentation |
| Remplacer l'arrière-plan vidéo (Web) | Remplacement des antécédents | Flou d'arrière-plan/remplacement |
| Remplacer l'arrière-plan de la vidéo (Native) | API du processeur de médias | Documentation |
| Ajouter des filigranes aux flux | API du processeur de médias | Filigranes et codes QR |
| Ajouter des codes QR | API du processeur de médias | Filigranes et codes QR |
| Supprimer les bruits de fond | Suppression du bruit | Suppression du bruit |
| Moduler l'audio avec des effets | API du processeur de médias | |
| VISION PAR ORDINATEUR | ||
| Remarquez quand quelqu'un lève la main | API du processeur de médias | Article de blog |
| Détecter si quelqu'un regarde hors de l'écran | API du processeur de médias | Article de blog |
| Voir les objets dans le cadre | API du processeur de médias | Analyse d'images |
| BOTS ET IA AGENTIQUE | ||
| Obtenir le sentiment en temps réel de l'appelant | Connecteur audio | Analyse des sentiments |
| Chatbot traditionnel | Connecteur audio | |
| Traduire automatiquement le discours de l'utilisateur dans une autre langue | Connecteur audio | |
| Construire un pipeline d'IA (STT→LLM/AI Agent → TTS) | Connecteur audio | Exemple d'application |
| Speech to Speech AI Traitement des agents | Connecteur audio | |
| Diffusion d'une annonce vocale AI dans une session vidéo | Connecteur audio |
Ressources connexes
- Processeur de médias: Découvrez comment capturer et modifier des flux vidéo.
- Connecteur audio: Apprenez à accéder et à modifier l'audio brut des sessions vidéo en direct de Vonage.
- Articles de blog: Voir des exemples de tutoriels sur la façon dont les sessions vidéo en direct de Vonage peuvent être améliorées à l'aide de l'IA.