
AIビデオアプリ向けVideo Connector SDKとPipecat Transportのご紹介
所要時間:2 分
はじめに
リアルタイムAIアプリケーションは、開発者がビデオ体験を構築する方法を変革しています。AIボット、ビデオアバター、リアルタイム文字起こし、感情検出、ライブ言語翻訳など、最新のアプリケーションでは、事後の録音だけでなく、生の音声やビデオストリームへのリアルタイムアクセスがますます必要になっています。
これまでは、Vonage Videoのライブ・セッションにAIワークフローを統合するには、C++や低レベルのメディア処理に関する深い専門知識が必要でした。その障壁がなくなりました。Vonageは、インテリジェントなメディア対応アプリケーションを構築する開発者のために特別に設計された2つの補完的なPythonベースのツールを発表しました。 Video Connector Server SDKと Pipecat用Vonage Videoトランスポート.
これらのツールを組み合わせることで、Vonage VideoセッションとOpenAI、Deepgram、AWS Nova Sonic、HeyGenなどのAIフレームワーク間で音声とビデオを劇的に簡単にストリーミングできるようになります。このブログポストでは、これらのツールの概要を説明し、それらがどのように組み合わされるかを説明し、最初のAI搭載ビデオエージェントを展開するためのリファレンスを提供します。
開発者がリアルタイムビデオとオーディオへの直接アクセスを必要とする理由
音声テキスト化、LLM駆動分析、音声合成、表情追跡、マルチモーダル知覚など、多くのAIワークフローはリアルタイムメディアに依存している。開発者は ビデオAPIを使用している開発者は、アクティブなセッションからオーディオとビデオを受信し、AIで処理し、応答を返送するためのシンプルで信頼性の高い方法を長い間求めてきました。
以前は、Vonage VideoセッションからRAWメディアにアクセスするためのサーバー側のオプションは Linux C++ SDK.強力ではありましたが、その低レベルの性質が、技術革新を遅らせ、特にAI/MLコミュニティの大半を占めるPython開発者の間での採用を制限する、急な学習曲線を生み出しました。
Vonage Video Connector SDK ビデオ・コネクタSDKはこの摩擦を取り除きます。
使用例
ツールチェーンは、以下のようなリアルタイムのAI体験を幅広くサポートしている:
VoiceおよびVideo AIエージェント(ボット)参加者を見聞きする対話型アシスタント
リアルタイム文字起こし&キャプションアクセシビリティと理解のためのライブ音声テキスト化
会議の要約とメモ発言者識別機能付き自動メモ機能
言語翻訳リアルタイム音声翻訳
感情と表情の検出ビデオフレームからの感情分析
患者と検査のモニタリングライブビデオによる遠隔モニタリング
ビデオアバター:音声と同期したAI生成ビデオ応答
コンテンツモデレーション不適切な音声または映像コンテンツをリアルタイムで検出します。
Video Connector SDKが提供するもの
Video Connector Server SDK は Python パッケージ (PyPIで入手可能) で、Vonage VideoセッションのサーバサイドWebRTCクライアントとして動作します。これはVonage Linux C++ SDKのPythonラッパーであり、C++の専門知識を必要とせず、ヘッドレスでクラウド展開可能なアプリケーションを可能にします。
Topology of Video Connector Server SDK
主要能力
サーバサイドでのWebRTC参加サーバー側クライアントとしてVonage Videoセッションに参加します。
双方向のオーディオとビデオリアルタイム・オーディオ・ストリームとビデオ・ストリームのパブリッシュとサブスクライブ
高品質メディアフォーマットオーディオ:PCM 16ビット(最大48 kHz)、ビデオ:8ビットRAWフレーム(最大FHD 1080p30
自動化されたメディア継続性メディア配信のギャップをインテリジェントに処理
キャプション購読 (ベータ版): セッションから自動生成されたキャプションを受け取る
個々のオーディオ・ストリームの識別 (ベータ)参加者ごとに音声パケットを区別して処理
イベント駆動型アーキテクチャセッション・イベントとメディア・イベントのための豊富な非同期コールバック
クラウドとヘッドレス展開コンテナ化された環境でサーバーサイドで使用するために設計されています。
これにより、開発者はWebRTCやメディアインフラのコードを書く必要がなく、AIパイプライン、分析ツール、ビデオボットを構築することに集中できる。
Video Connector SDK を使い始める
SDKは Pythonパッケージインデックスセッションに接続し、参加者ストリームをサブスクライブし、コールバックを介してオーディオとビデオフレームを受信し、AIパイプラインでそれらを処理し、応答をセッションに戻して公開します。
参考
ビデオコネクタ Video Connector 開発者向けドキュメントには、セッションの設定、メディアハンドラの設定、オーディオとビデオをセッションに戻すための完全なリファレンスがあります。
パイプキャット用Vonageビデオトランスポート
Pipecatは、オーディオ、ビデオ、画像、テキストにわたる複雑なAIワークフローをオーケストレーションするためのオープンソースのPythonフレームワークです。リアルタイムAIパイプラインを構築するための、ベンダーニュートラルなモジュール式プラットフォームを提供します。 最小限のコーディングでSpeech-to-Text、LLM、Text-to-Speech、ビデオアバターなどを接続します。
ビデオに特化したアプリケーションには、新しい Pipecat用Vonage Videoトランスポートは、ライブVonage VideoセッションとPipecat処理パイプライン間のブリッジとして機能します。シリアライザーとは異なり シリアライザー(音声のみのフォーマット変換を扱う)と異なり、トランスポートは完全な双方向音声 とビデオをVonage WebRTCセッションとPipecatパイプラインの間で流すことができます。

パイプキャットのボンテージ・トランスポート
Video Connector SDKを介して、Vonage VideoセッションをPipecatパイプラインに接続します。
双方向のオーディオおよびビデオストリームに対応
パイプキャットのものを継承。
BaseTransport,BaseInputTransportおよびBaseOutputTransport抽象クラスVonage セッション ID、トークン、そしてオプションでサブスクライブするストリーム ID のリストを使用して初期化します。
AIサービスのPipecatエコシステム全体へのアクセスが可能
つまり開発者は、メディア変換やWebRTCのコードを書くことなく、PipecatのAI統合機能(OpenAI Realtime、AWS Nova Sonic、Deepgram、ElevenLabs、HeyGen、Tavus、Simliなど)を利用できる。
パイプキャットのAIサービス統合
Pipecatは、豊富で増え続けているAIサービスをすぐに利用できる:
カテゴリー | 支援サービス | |
スピーチ・トゥ・テキスト | Deepgram, OpenAI Whisper, AssemblyAI, Azure, Google, AWS Transcribe, and more | |
LLM | OpenAI、Anthropic、Gemini、Grok、Bedrock、Ollamaなど。 | |
音声合成 | イレブンラボ、カルテシア、オープンAI、AWSポリー、グーグルなど | |
音声合成 | AWS Nova Sonic、OpenAI Realtime、Gemini Live | |
ビデオアバター | ヘイゲン、シムリ、タバス | |
最新のリストは Pipecat対応サービスページ.
参考
ビデオコネクタ Vonage Video Connector Pipecat Transport 開発者向けドキュメントには、Vonage Transportのセットアップと最初のPipecat搭載ビデオエージェントの構築に関する完全なリファレンスが記載されています。
サンプルアプリケーション
Vonageは、実際の使用例を示すサンプル・アプリケーションを提供しています:
エコーサーバーオーディオとビデオをセッションにエコーバックするシンプルなアプリ。
キャプション付きビデオアバター (Pipecat)音声合成にAWS Nova Sonicを使用し、AIが生成したビデオアバターへの応答にHeyGenを使用したフルパイプライン。
ビデオの音声説明(Pipecat)ビデオ認識と音声合成にMoondream AIを使用し、ビデオストリームで起こっていることをリアルタイムで説明します。
サンプルコードは リリース・リポジトリ.始めるのは簡単です:
リリース・レポからSDKのtarボールをダウンロードし、解凍する。
Dockerをインストールする
メイン・ディレクトリの
README.mdを開き、Dockerイメージをビルドします。Vonage Videoセッションを作成し、セッション認証情報を含む
session.jsonファイルを作成します。エコーサーバまたは Pipecat のサンプルを実行します。
README.mdを実行します。
ツールの組み合わせ方
Vonageは現在、VoiceとVideoセッションの両方にAIを統合するための完全なPythonツールチェーンを提供しています:
工具 | 輸送 | 能力 |
|---|---|---|
オーディオコネクタSDK | ウェブソケット | 音声のみ (Voice APIおよびVideo APIセッション)。 |
パイプキャット・シリアライザー | ウェブソケット | 音声のみ (Voice APIおよびVideo APIセッション)。 |
ビデオコネクタSDK | ウェブRTC | オーディオ+ビデオ (ビデオAPIセッション) |
パイプキャット輸送 | ウェブRTC | オーディオ+ビデオ (ビデオAPIセッション) |
使用目的が オーディオのみの場合 オーディオコネクターSDKおよび Pipecat Serializerは正しい出発点です。必要な場合 音声とビデオへのフルアクセス-アバター、感情検出、ビジュアルAI、マルチモーダルエージェントのために Video Connector SDKおよび パイプキャット・トランスポートはあなたのためのツールです。
結論
Vonage Video Connector SDKとPipecat Transportは、リアルタイムのオーディオおよびビデオエージェントを作成するための、合理化された最新のPython中心のアプローチを提供します。これらのツールは、開発者が複雑なWebRTC内部を管理したり、C++コードを書いたり、メディアパイプラインを手動で構築する必要性を排除します。
Videoアバターボットの構築、LLMとのSpeech-to-Textの統合、リアルタイムでの表情分析、AIを搭載した会議アシスタントの作成など、これらのツールは必要な基盤を提供します。
始める準備ができたら、探検してみよう:
最初のAIビデオエージェントを数分で導入し、Vonageプラットフォーム上で完全にインテリジェントなメディア対応アプリケーションを自信を持って構築することができます。
ご質問がある場合、またはあなたが作っているものを共有したい場合は、こちらをクリックしてください。
登録する 開発者ニュースレター
フォローする X(旧ツイッター)最新情報
チュートリアルを見る YouTubeチャンネル
LinkedInの LinkedIn の Vonage デベロッパーページ
最新の開発者向けニュース、ヒント、イベント情報をお届けします。