https://d226lax1qjow5r.cloudfront.net/blog/blogposts/use-media-processor-and-ai-video-transformers-with-vonage-video-api/video-communications_ai.png

Oleksii BorysenkoAnciens de Vonage

Oleksii est Developer Advocate chez Vonage, auteur et conteur. Il s'intéresse à l'IA/ML, aux communications unifiées, aux technologies de l'éducation, aux technologies cloud et à l'open source.

Utiliser le processeur média et les transformateurs vidéo d'IA avec l'API Video de Vonage.

Publié le March 22, 2023

#video-api

#ai

Temps de lecture : 3 minutes

Dans cet article, nous allons explorer les outils et cadres AI/ML qui pourraient bénéficier aux développeurs travaillant avec l'API Video de Vonage. En outre, nous examinerons quelques exemples d'intégration à l'aide d'outils standard.

Depuis la pandémie, de nombreuses personnes se sont installées dans des bureaux à domicile et, à ce jour, de nombreuses entreprises informatiques continuent d'optimiser leurs dépenses en fermant ou en vendant des bureaux. De nombreux employés continuent de travailler à domicile. Vous trouverez plus de données dans le rapport sur l'engagement des clients. Cela a également augmenté la demande de nouvelles fonctionnalités qui aident à la confidentialité et à la concentration pendant les appels vidéo, comme le flou d'arrière-plan, la réduction du bruit et le suivi du locuteur. Ces fonctions sont utiles lorsque vous travaillez à domicile, dans un espace de travail partagé et, parfois, à l'aéroport.

La pandémie nous a poussés à repenser notre façon de travailler, et la vidéoconférence a joué un rôle important dans cette transformation. Les applications Video sont le moteur de l'évolution technologique, et de nombreuses solutions d'IA s'intègrent désormais à la vidéoconférence.

Simplifier le travail avec les flux insérables

Pour jeter les bases de la manipulation des médias par l'IA, nous avons créé le processeur de médias, une fonctionnalité qui simplifie l'utilisation de l'API webRTC Insertable Streams pour l'utiliser avec des transformateurs vidéo personnalisés. Le processeur de médias vous permet de connecter facilement une série de transformateurs à travers lesquels les images vidéo voyageront. Le flou de l'arrière-plan ou l'annulation du bruit sont des exemples de transformateurs possibles. Vonage Media Processor est une bibliothèque d'accélération pour les développeurs web qui souhaitent utiliser les flux insérables sur les navigateurs basés sur Chrome à l'aide de n'importe quel SDK Vonage (voix et vidéo).

@vonage/media-processor est la bibliothèque qui simplifie l'utilisation des flux insérables
Orchestration du pipeline de médias gérée par la bibliothèque @vonage/media-processor/MediaProcessor
Contrôle les transformateurs
Expose setTransformers, setVideoTransformers, setAudioTransformers
Permet de connecter des séries de transformateurs @vonage/media-processor/MediaProcessorConnector
Connecte le MediaProcessor avec l'éditeur OT Transformateurs
Classe dans laquelle les algorithmes de transformation sont mis en œuvre
Les transformateurs ML fournissent une mise en œuvre de référence

Web application scheme

Application des ML Transformers de Vonage aux flux vidéo et audio

Avec le Media Processor comme base pour travailler avec des flux insérables, nous pouvons maintenant incorporer des transformateurs qui faciliteront le mouvement des trames vidéo et audio. Les transformateurs ML de Vonage sont une bibliothèque qui met en œuvre des algorithmes d'apprentissage automatique pour le web. Cette bibliothèque est basée sur des bibliothèques propriétaires et open-source, notamment @vonage/media-processor pour l'orchestration, et MediaPipe et TensorFlow Lite (TFLite) pour les améliorations vidéo proprement dites. TensorFlow Lite est une bibliothèque mobile permettant de déployer des modèles sur des appareils mobiles, des microcontrôleurs et d'autres appareils périphériques. La bibliothèque permet aux utilisateurs d'exécuter des modèles TFLite arbitraires sur le web en chargeant un modèle TFLite à partir d'une URL, en définissant les données d'entrée du modèle avec des tenseurs TFJS, en exécutant l'inférence et en récupérant la sortie dans des tenseurs TFJS. En outre, il comprend des classes d'aide pour certains types de modèles, tels que les modèles de détection d'objets.

La bibliothèque MediaPipe est une bibliothèque open source sous licence MIT. Pour notre solution de flou/remplacement de l'arrière-plan, nous utilisons la bibliothèque Segmentation du selfie de MediaPipe. La bibliothèque ajoute le support pour toutes les solutions JS de MediaPipe. Cela aide les développeurs à créer des projets intéressants avec n'importe quel module JS de MediaPipe.

Transformers

Bibliothèque de Vonage qui fournit des algorithmes de ML :

Basé sur MediaPipe et TFLite
Accès à tous les algorithmes de MediaPipe (js)
- Segmentation du selfie
- Maille faciale
- Détection de l'iris
- Détection des mains
- Objectron
- Holistique
- Pose
Fournit des implémentations pour les effets visuels :
- Flou d'arrière-plan
- Contexte virtuel
- Flou de la silhouette
- Video Background

Détails de la mise en œuvre.

Utilise le MediaPipe Selfie Segmentation solution.
Le processus s'exécute dans un serveur web.
Les solutions MediaPipe sont basées sur WebGL et wasm (SIMD).
La solution n'est pas livrée avec les binaires de MediaPipe. Nous avons ajouté des ressources statiques sous AWS Cloud Front CDN. Voici les adresses IP sur liste blanche pour Cloud Front.
MediaProcessorConfig vous permet de définir mediapipeBaseAssetsUri, ce qui permet à l'utilisateur d'héberger lui-même les ressources de MediaPipe. Cependant, nous ne recommandons PAS cette solution.

Conclusion

Vous avez des idées sur la façon d'utiliser les Transformers avec du contenu Video ? Essayez-le avec l'une des Exemples d'applications ou créez-en une personnalisée. Montrez vos créations en matière d'intelligence artificielle ou faites-nous savoir comment nous pouvons vous aider ! Rejoignez la conversation sur notre Communauté Vonage Slack ou envoyez-nous un message sur sur Twitter.