https://a.storyblok.com/f/270183/1368x665/229d3bd67d/26may_dev-blog_ai-video-apps-conn-sdk-pipecat.jpg

Michael Vernickカスタマー・ソリューション・アーキテクト

AIビデオアプリ向けVideo Connector SDKとPipecat Transportのご紹介

最終更新日 May 28, 2026

#video-api

#pipecat

#ai

所要時間：2 分

はじめに

リアルタイムAIアプリケーションは、開発者がビデオ体験を構築する方法を変革しています。AIボット、ビデオアバター、リアルタイム文字起こし、感情検出、ライブ言語翻訳など、最新のアプリケーションでは、事後の録音だけでなく、生の音声やビデオストリームへのリアルタイムアクセスがますます必要になっています。

これまでは、Vonage Videoのライブ・セッションにAIワークフローを統合するには、C++や低レベルのメディア処理に関する深い専門知識が必要でした。その障壁がなくなりました。Vonageは、インテリジェントなメディア対応アプリケーションを構築する開発者のために特別に設計された2つの補完的なPythonベースのツールを発表しました。 Video Connector Server SDKと Pipecat用Vonage Videoトランスポート.

これらのツールを組み合わせることで、Vonage VideoセッションとOpenAI、Deepgram、AWS Nova Sonic、HeyGenなどのAIフレームワーク間で音声とビデオを劇的に簡単にストリーミングできるようになります。このブログポストでは、これらのツールの概要を説明し、それらがどのように組み合わされるかを説明し、最初のAI搭載ビデオエージェントを展開するためのリファレンスを提供します。

開発者がリアルタイムビデオとオーディオへの直接アクセスを必要とする理由

音声テキスト化、LLM駆動分析、音声合成、表情追跡、マルチモーダル知覚など、多くのAIワークフローはリアルタイムメディアに依存している。開発者はビデオAPIを使用している開発者は、アクティブなセッションからオーディオとビデオを受信し、AIで処理し、応答を返送するためのシンプルで信頼性の高い方法を長い間求めてきました。

以前は、Vonage VideoセッションからRAWメディアにアクセスするためのサーバー側のオプションは Linux C++ SDK.強力ではありましたが、その低レベルの性質が、技術革新を遅らせ、特にAI/MLコミュニティの大半を占めるPython開発者の間での採用を制限する、急な学習曲線を生み出しました。

Vonage Video Connector SDK ビデオ・コネクタSDKはこの摩擦を取り除きます。

使用例

ツールチェーンは、以下のようなリアルタイムのAI体験を幅広くサポートしている：

VoiceおよびVideo AIエージェント（ボット）参加者を見聞きする対話型アシスタント
リアルタイム文字起こし＆キャプションアクセシビリティと理解のためのライブ音声テキスト化
会議の要約とメモ発言者識別機能付き自動メモ機能
言語翻訳リアルタイム音声翻訳
感情と表情の検出ビデオフレームからの感情分析
患者と検査のモニタリングライブビデオによる遠隔モニタリング
ビデオアバター:音声と同期したAI生成ビデオ応答

コンテンツモデレーション不適切な音声または映像コンテンツをリアルタイムで検出します。

Video Connector SDKが提供するもの

Video Connector Server SDK は Python パッケージ (PyPIで入手可能) で、Vonage VideoセッションのサーバサイドWebRTCクライアントとして動作します。これはVonage Linux C++ SDKのPythonラッパーであり、C++の専門知識を必要とせず、ヘッドレスでクラウド展開可能なアプリケーションを可能にします。

A diagram showing how the Video Connector Server SDK is integrated into an end-to-end video session. Topology of Video Connector Server SDK

主要能力

サーバサイドでのWebRTC参加サーバー側クライアントとしてVonage Videoセッションに参加します。
双方向のオーディオとビデオリアルタイム・オーディオ・ストリームとビデオ・ストリームのパブリッシュとサブスクライブ
高品質メディアフォーマットオーディオ：PCM 16ビット（最大48 kHz）、ビデオ：8ビットRAWフレーム（最大FHD 1080p30
自動化されたメディア継続性メディア配信のギャップをインテリジェントに処理
キャプション購読 (ベータ版）: セッションから自動生成されたキャプションを受け取る
個々のオーディオ・ストリームの識別 (ベータ）参加者ごとに音声パケットを区別して処理
イベント駆動型アーキテクチャセッション・イベントとメディア・イベントのための豊富な非同期コールバック
クラウドとヘッドレス展開コンテナ化された環境でサーバーサイドで使用するために設計されています。

これにより、開発者はWebRTCやメディアインフラのコードを書く必要がなく、AIパイプライン、分析ツール、ビデオボットを構築することに集中できる。

Video Connector SDK を使い始める

SDKは Pythonパッケージインデックスセッションに接続し、参加者ストリームをサブスクライブし、コールバックを介してオーディオとビデオフレームを受信し、AIパイプラインでそれらを処理し、応答をセッションに戻して公開します。

参考

ビデオコネクタ Video Connector 開発者向けドキュメントには、セッションの設定、メディアハンドラの設定、オーディオとビデオをセッションに戻すための完全なリファレンスがあります。

パイプキャット用Vonageビデオトランスポート

Pipecatは、オーディオ、ビデオ、画像、テキストにわたる複雑なAIワークフローをオーケストレーションするためのオープンソースのPythonフレームワークです。リアルタイムAIパイプラインを構築するための、ベンダーニュートラルなモジュール式プラットフォームを提供します。最小限のコーディングでSpeech-to-Text、LLM、Text-to-Speech、ビデオアバターなどを接続します。

ビデオに特化したアプリケーションには、新しい Pipecat用Vonage Videoトランスポートは、ライブVonage VideoセッションとPipecat処理パイプライン間のブリッジとして機能します。シリアライザーとは異なりシリアライザー(音声のみのフォーマット変換を扱う)と異なり、トランスポートは完全な双方向音声とビデオをVonage WebRTCセッションとPipecatパイプラインの間で流すことができます。

Flowchart of a video setup: Vonage Video Session connects via WebRTC to a Customer Application Server, which processes raw audio/video and links to AI Engines.

パイプキャットのボンテージ・トランスポート

Video Connector SDKを介して、Vonage VideoセッションをPipecatパイプラインに接続します。
双方向のオーディオおよびビデオストリームに対応
パイプキャットのものを継承。 BaseTransport, BaseInputTransportおよび BaseOutputTransport抽象クラス
Vonage セッション ID、トークン、そしてオプションでサブスクライブするストリーム ID のリストを使用して初期化します。
AIサービスのPipecatエコシステム全体へのアクセスが可能

つまり開発者は、メディア変換やWebRTCのコードを書くことなく、PipecatのAI統合機能（OpenAI Realtime、AWS Nova Sonic、Deepgram、ElevenLabs、HeyGen、Tavus、Simliなど）を利用できる。

パイプキャットのAIサービス統合

Pipecatは、豊富で増え続けているAIサービスをすぐに利用できる：

カテゴリー	支援サービス
スピーチ・トゥ・テキスト	Deepgram, OpenAI Whisper, AssemblyAI, Azure, Google, AWS Transcribe, and more
LLM	OpenAI、Anthropic、Gemini、Grok、Bedrock、Ollamaなど。
音声合成	イレブンラボ、カルテシア、オープンAI、AWSポリー、グーグルなど
音声合成	AWS Nova Sonic、OpenAI Realtime、Gemini Live
ビデオアバター	ヘイゲン、シムリ、タバス

最新のリストは Pipecat対応サービスページ.

参考

ビデオコネクタ Vonage Video Connector Pipecat Transport 開発者向けドキュメントには、Vonage Transportのセットアップと最初のPipecat搭載ビデオエージェントの構築に関する完全なリファレンスが記載されています。

サンプルアプリケーション

Vonageは、実際の使用例を示すサンプル・アプリケーションを提供しています：

エコーサーバーオーディオとビデオをセッションにエコーバックするシンプルなアプリ。
キャプション付きビデオアバター (Pipecat)音声合成にAWS Nova Sonicを使用し、AIが生成したビデオアバターへの応答にHeyGenを使用したフルパイプライン。
ビデオの音声説明（Pipecat）ビデオ認識と音声合成にMoondream AIを使用し、ビデオストリームで起こっていることをリアルタイムで説明します。

サンプルコードはリリース・リポジトリ.始めるのは簡単です：

リリース・レポからSDKのtarボールをダウンロードし、解凍する。
Dockerをインストールする
メイン・ディレクトリの README.mdを開き、Dockerイメージをビルドします。
Vonage Videoセッションを作成し、セッション認証情報を含む session.jsonファイルを作成します。
エコーサーバまたは Pipecat のサンプルを実行します。 README.mdを実行します。

ツールの組み合わせ方

Vonageは現在、VoiceとVideoセッションの両方にAIを統合するための完全なPythonツールチェーンを提供しています：

工具	輸送	能力
オーディオコネクタSDK	ウェブソケット	音声のみ (Voice APIおよびVideo APIセッション）。
パイプキャット・シリアライザー	ウェブソケット	音声のみ (Voice APIおよびVideo APIセッション）。
ビデオコネクタSDK	ウェブRTC	オーディオ＋ビデオ (ビデオAPIセッション)
パイプキャット輸送	ウェブRTC	オーディオ＋ビデオ (ビデオAPIセッション)

使用目的が オーディオのみの場合オーディオコネクターSDKおよび Pipecat Serializerは正しい出発点です。必要な場合 音声とビデオへのフルアクセス-アバター、感情検出、ビジュアルAI、マルチモーダルエージェントのために Video Connector SDKおよびパイプキャット・トランスポートはあなたのためのツールです。

結論

Vonage Video Connector SDKとPipecat Transportは、リアルタイムのオーディオおよびビデオエージェントを作成するための、合理化された最新のPython中心のアプローチを提供します。これらのツールは、開発者が複雑なWebRTC内部を管理したり、C++コードを書いたり、メディアパイプラインを手動で構築する必要性を排除します。

Videoアバターボットの構築、LLMとのSpeech-to-Textの統合、リアルタイムでの表情分析、AIを搭載した会議アシスタントの作成など、これらのツールは必要な基盤を提供します。

始める準備ができたら、探検してみよう：

最初のAIビデオエージェントを数分で導入し、Vonageプラットフォーム上で完全にインテリジェントなメディア対応アプリケーションを自信を持って構築することができます。