https://d226lax1qjow5r.cloudfront.net/blog/blogposts/use-media-processor-and-ai-video-transformers-with-vonage-video-api/video-communications_ai.png

Medienprozessor und KI-Videotransformatoren mit Vonage Video API verwenden

Zuletzt aktualisiert am March 22, 2023

Lesedauer: 2 Minuten

In diesem Artikel werden wir die KI/ML-Tools und -Frameworks untersuchen, von denen Entwickler profitieren können, die mit der Vonage Video API arbeiten. Außerdem werden wir einige Integrationsbeispiele mit Standardtools untersuchen.

Seit der Pandemie sind viele Menschen ins Home Office umgezogen, und auch heute noch optimieren viele IT-Unternehmen ihre Ausgaben, indem sie Bürogebäude schließen oder verkaufen. Viele Mitarbeiter arbeiten weiterhin von zu Hause aus. Weitere Daten finden Sie in dem Bericht zur Kundenbindung. Dadurch stieg auch die Nachfrage nach neuen Funktionen, die die Privatsphäre und die Konzentration bei Videogesprächen verbessern, z. B. Hintergrundunschärfe, Rauschunterdrückung und Sprecherverfolgung. Diese Funktionen sind von Vorteil, wenn Sie von zu Hause aus, in einem Coworking Space und gelegentlich auch vom Flughafen aus arbeiten.

Die Pandemie hat uns dazu gezwungen, unsere Arbeitsweise zu überdenken, und Videokonferenzen haben bei diesem Wandel eine wichtige Rolle gespielt. Videoanwendungen treiben die technologische Entwicklung voran, und viele KI-Lösungen werden jetzt in Videokonferenzen integriert.

Vereinfachung der Arbeit mit einfügbaren Strömen

Als Grundlage für die KI-Medienmanipulation haben wir den Media Processor entwickelt - eine Funktion, die die Verwendung der webRTC Insertable Streams API für die Verwendung mit benutzerdefinierten Videotransformatoren vereinfacht. Mit dem Media Processor können Sie ganz einfach eine Reihe von Transformatoren verbinden, durch die die Videobilder laufen werden. Hintergrundunschärfe oder Rauschunterdrückung sind Beispiele für mögliche Transformatoren. Der Vonage Media Processor ist eine Beschleunigungsbibliothek für Webentwickler, die Insertable Streams auf Chrome-basierten Browsern mit einem beliebigen Vonage SDK (Sprache und Video) verwenden möchten.

  • @vonage/media-processor ist die Bibliothek, die die Verwendung von Insertable Streams vereinfacht

  • Die Orchestrierung der Medienpipeline wird von der Bibliothek @vonage/media-processor/MediaProcessor

  • Steuert die Transformatoren

  • Ermöglicht setTransformers, setVideoTransformers, setAudioTransformers

  • Ermöglicht den Anschluss einer Reihe von Transformatoren @vonage/media-processor/MediaProcessorConnector

  • Verbindet den MediaProcessor mit dem OT Publisher Transformatoren

  • Klasse, in der Transformationsalgorithmen implementiert werden

  • ML-Transformatoren bietet Referenzimplementierung

Web application schemeWeb application scheme

Anwendung von Vonage ML Transformers auf Video- und Audioströme

Mit dem Medienprozessor als Grundlage für die Arbeit mit einfügbaren Streams können wir nun Transformatoren einbinden, die die Bewegung von Video- und Audiorahmen erleichtern. Vonage ML transformers ist eine Bibliothek, die maschinelle Lernalgorithmen für das Web implementiert. Diese Bibliothek basiert auf proprietären und Open-Source-Bibliotheken, darunter @vonage/media-processor für die Orchestrierung sowie MediaPipe und TensorFlow Lite (TFLite) für die eigentlichen Videoverbesserungen. TensorFlow Lite ist eine mobile Bibliothek für den Einsatz von Modellen auf Mobiltelefonen, Mikrocontrollern und anderen Endgeräten. Die Bibliothek ermöglicht es Benutzern, beliebige TFLite-Modelle im Web auszuführen, indem sie ein TFLite-Modell von einer URL laden, die Eingabedaten des Modells mit TFJS-Tensoren setzen, die Inferenz ausführen und die Ausgabe in TFJS-Tensoren zurückerhalten. Darüber hinaus enthält es Hilfsklassen, die bei bestimmten Modelltypen, wie z. B. Objekterkennungsmodellen, helfen.

Die MediaPipe-Bibliothek ist eine Open-Source-Bibliothek unter MIT-Lizenz. Für unsere Lösung der Hintergrundunschärfe/-ersetzung verwenden wir die Selfie-Segmentierung Lösung von MediaPipe. Die Bibliothek bietet Unterstützung für alle MediaPipe JS-Lösungen. Dies hilft Entwicklern, coole Projekte mit jedem MediaPipe JS-Modul zu erstellen.

TransformersTransformers

Bibliothek von Vonage, die ML-Algorithmen bereitstellt:

  • Basierend auf MediaPipe und TFLite

  • Zugang zu allen MediaPipe (js)-Algorithmen

    • Selfie-Segmentierung

    • Gesicht Mesh

    • Iris-Erkennung

    • Erkennung der Hand

    • Objektron

    • Ganzheitlich

    • Pose

  • Bietet Implementierungen für visuelle Effekte:

    • Hintergrund Unschärfe

    • Virtueller Hintergrund

    • Silhouette Unschärfe

    • Video-Hintergrund

Einzelheiten der Durchführung.

  • Verwendet die MediaPipe Selfie-Segmentierung Lösung.

  • Der Prozess läuft in einem Webworker.

  • Die MediaPipe-Lösungen basieren auf WebGL und wasm (SIMD).

  • Die Lösung wird nicht mit MediaPipe-Binärdateien ausgeliefert. Wir haben statische Assets unter AWS Cloud Front CDN hinzugefügt. Hier sind White-Listed-IPs für Cloud Front.

  • Mit MediaProcessorConfig können Sie mediapipeBaseAssetsUri definieren, die es dem Benutzer ermöglicht, MediaPipe-Assets selbst zu hosten. Wir empfehlen dies jedoch NICHT.

Schlussfolgerung

Haben Sie Ideen, wie Sie Transformers mit Videoinhalten verwenden können? Probieren Sie es mit einer der Beispielanwendungen oder erstellen Sie Ihre eigene Anwendung. Zeigen Sie uns Ihre KI-Kreationen, oder lassen Sie uns wissen, wie wir Ihnen helfen können! Beteiligen Sie sich an der Diskussion auf unserem Vonage Community Slack oder senden Sie uns eine Nachricht auf Twitter.

Teilen Sie:

https://a.storyblok.com/f/270183/400x409/b965ab37c0/oleksii-borysenko.png
Oleksii BorysenkoVonage Ehemalige

Oleksii ist ein Developer Advocate bei Vonage, Autor und Geschichtenerzähler. Seine Interessen umfassen KI/ML, Unified Communications, Bildungstechnologien, Cloud-Technologien und Open Source.