
シェア:
Vonageのデベロッパー・アドボケイト、作家、ストーリーテラー。AI/ML、ユニファイド・コミュニケーション、教育技術、クラウド技術、オープンソースに関心を持つ。
Vonage Video APIでメディアプロセッサとAI Video Transformersを使用する
所要時間:1 分
この記事では、Vonage Video APIを使用する開発者に有益なAI/MLツールとフレームワークを探ります。さらに、標準的なツールを使用した統合のサンプルをいくつか検証します。
パンデミック以降、多くの人がホームオフィスに移り、今日に至っても、多くのIT企業がオフィス物件の閉鎖や売却によって経費の最適化を続けている。多くの従業員が在宅勤務を続けている。詳しいデータは カスタマー・エンゲージメント・レポート.また、背景ぼかし、ノイズ除去、話者追跡など、ビデオ通話中のプライバシーや集中力を高める新機能の需要も高まっている。これらの機能は、自宅やコワーキングスペース、時には空港で仕事をする際にも役立ちます。
パンデミックによって、私たちは働き方を見直す必要に迫られ、ビデオ会議はその変革に重要な役割を果たした。Videoアプリケーションは技術進化の原動力であり、多くのAIソリューションがVideo会議に統合されつつある。
挿入可能ストリームによる作業の簡素化
AI メディア操作の基礎を築くために、私たちは Media Processor を作成しました。これは、カスタム Video Transformer で使用するための webRTC Insertable Streams API の使用を簡素化する機能です。Media Processor では、ビデオフレームが通過する一連のトランスフォーマーを簡単に接続できます。背景ぼかしやノイズキャンセリングは、可能なトランスフォーマーの一例です。Vonage Media Processorは、Vonage SDK(音声およびビデオ)を使用してChromeベースのブラウザで挿入可能ストリームを使用したいウェブ開発者のためのアクセラレータ・ライブラリです。
vonage/メディア・プロセッサーは、挿入可能ストリームの使用を簡素化するライブラリである。
ライブラリによって処理されるメディア・パイプラインのオーケストレーション vonage/media-processor/MediaProcessor
変圧器を制御する
公開 setTransformers, setVideoTransformers, setAudioTransformers
トランスの直列接続を可能にする ボンテージ/メディアプロセッサー/メディアプロセッサーコネクター
MediaProcessor と OT Publisher を接続します。 トランスフォーマー
変換アルゴリズムが実装されるクラス
MLトランスフォーマーがリファレンス実装を提供

Vonage ML Transformersのビデオ&オーディオストリームへの適用
挿入可能なストリームを扱うための基盤としてMedia Processorを使用することで、ビデオやオーディオフレームの移動を容易にするトランスフォーマーを組み込むことができるようになりました。Vonage ML transformersは、ウェブ用の機械学習アルゴリズムを実装したライブラリです。このライブラリは、以下を含むプロプライエタリ・ライブラリとオープンソース・ライブラリに基づいている。 vonage/メディアプロセッサを含むプロプライエタリおよびオープンソースのライブラリに基づいている。TensorFlow Liteは、モバイル、マイコン、その他のエッジデバイスにモデルをデプロイするためのモバイルライブラリである。URLからTFLiteモデルを読み込み、モデルの入力データをTFJSテンソルで設定し、推論を実行し、出力をTFJSテンソルで取得することで、Web上で任意のTFLiteモデルを実行することができます。さらに、オブジェクト検出モデルのような特定のモデルタイプを補助するヘルパークラスも含まれています。
MediaPipeライブラリはMITライセンスのオープンソースライブラリです。背景のぼかしと置換のソリューションには セルフィーセグメンテーションソリューションを使用します。このライブラリは、すべてのMediaPipe JSソリューションのサポートを追加します。これにより、開発者はどのMediaPipe JSモジュールでもクールなプロジェクトを作成することができます。

MLアルゴリズムを提供するVonageのライブラリ:
ベース メディアパイプおよびTFLite
すべてのMediaPipe (js)アルゴリズムへのアクセス
セルフィーのセグメンテーション
フェイス・メッシュ
虹彩検出
手の検出
オブジェクトロン
ホリスティック
ポーズ
視覚効果の実装を提供:
背景ぼかし
仮想背景
シルエット・ブラー
ビデオの背景
実施の詳細
を使用 メディアパイプソリューションを使用しています。
このプロセスはウェブワーカーで実行されます。
MediaPipeソリューションは、WebGLとwasm(SIMD)をベースにしています。
このソリューションにはMediaPipeのバイナリはバンドルされていません。AWS Cloud Front CDNの下に静的アセットを追加しました。クラウドフロントのホワイトリストIPはこちらです。
MediaProcessorConfigでは、mediapipeBaseAssetsUriを定義することで、MediaPipeアセットをセルフホストすることができます。しかし、これはお勧めしません。
結論
トランスフォーマーをビデオコンテンツに活用するアイデアをお持ちですか?以下の サンプルアプリケーションまたはカスタムアプリケーションを作成してください。あなたのAI作品を披露してください!私たちの VonageコミュニティSlackまたは ツイッター.


