VonageビデオおよびVoice API上でリアルタイムAIエージェントを構築するVonage AIツール

音声テキスト化、LLM駆動分析、音声合成、マルチモーダル知覚など、多くのAIワークフローはリアルタイムの音声とビデオに依存しています。Vonage Voice and Video APIを使用する開発者は、アクティブなセッションからメディアを受信し、AIで処理し、応答を返送するためのシンプルで信頼性の高い方法を長い間求めてきました。

このインフラをゼロから構築し、WebSocketサーバー、バイナリーオーディオフレーム、サンプルレート、WebRTC接続、ステートフルなセッションを管理することは、複雑でエラーが発生しやすい。実験、概念実証の開発、本番導入が遅くなります。

Vonageは、この摩擦を取り除き、開発者が作りたいものに集中できるようにする2つの補完的なツールセットでこれを解決します。これらのツールセットは、以下のようなリアルタイムのAI体験を幅広くサポートします:

  • 音声テキスト起こし
  • LLMベースのミーティング・アシスタント
  • ライブ・コールにおけるセンチメントまたはインテント分析
  • 対話型音声ボット
  • リアルタイム言語翻訳
  • 自動化されたメモ取りや要約
  • 音声モデレーションとコンプライアンス検出

Vonageは、Vonage AI Connectorsを通じて、VoiceおよびVideo APIセッションにAIを統合するためのさまざまなコネクタとツールを提供しています。書き起こしサービス、会話エージェント、リアルタイム翻訳、センチメント分析など、最新のアプリケーションでは、録音の終了時やファイルのアップロード後だけでなく、動いている生の音声やビデオへのアクセスがますます必要になっています。 この次世代のインテリジェント・アプリケーションをサポートするために、VonageはVoice APIとVideo APIセッションにAIを統合する開発者向けに2つのアプローチを提供しています。 Vonage AIコネクタSDK 独自のAIミドルウェアを構築している開発者向け。 Vonage Pipecatインテグレーション オープンソースのエージェントフレームワークで、AIベンダーのサポートを自由に組み合わせたい開発者向け。

Vonage AIコネクタSDK

Vonage AI Connector SDKは、開発者がVonage VoiceおよびVideo APIセッションを独自のAIエンドポイントに接続する方法を簡素化するPythonライブラリです。これらのSDKはメディアコンディショニングとAPIインターフェイスを処理するため、開発者はインフラストラクチャよりもAIロジックに集中することができます。

2つのVonage AI Connector SDKがあり、それぞれ異なるトランスポートとユースケース用に設計されている:

オーディオコネクタサーバーSDK ビデオコネクターサーバーSDK
API互換性 Vonage Video API & Vonage Voice API Video APIのみ
輸送 ウェブソケット ウェブRTC
メディア 音声のみ オーディオ+ビデオ
ユースケース WebSocketサーバー経由でAIにオーディオをブリッジする ビデオセッションの参加者としてAIに接続
入手可能性 (PyPIパッケージ) フォネージ・オーディオ・コネクタ・サーバ ビデオコネクタ

オーディオコネクタサーバーSDK

Audio Connector Server SDKは、VonageセッションとAIエンドポイント間のオーディオ・ブリッジを行うPython WebSocketサーバ・ライブラリです。Video API(Audio Connector経由)とVoice API(Voice WebSockets経由)の両方で動作するため、どちらのAPIでも音声優先のAIユースケースに最適です。

主な能力は以下の通り:

  • PCMオーディオ送受信用イベント駆動型WebSocketサーバー
  • 自動フレーム処理による8 kHz、16 kHz、24 kHzサンプルのサポート
  • connect、disconnect、message、errorイベントの非同期コールバックをクリーンにする。
  • スムーズな再生のための内蔵バッファリングとタイミングコントロール
  • マルチエージェントまたはマルチパーティシパントワークフローのための複数同時接続
  • セキュアな本番環境のためのTLSサポート

ビデオコネクターサーバーSDK

Video Connector Server SDKは、Vonage Videoセッションに直接接続するLinux用Python WebRTCクライアント・ライブラリです。Audio Connector Server SDKとは異なり、オーディオおよびビデオ・ストリームの両方をサポートし、特にAIワークフローがビデオを処理または生成する必要がある場合、より高いオーディオ忠実度(最大48 kHzまたはステレオ)をサポートする場合、またはWebRTC接続の低レイテンシー特性を必要とする場合、Vonage Videoセッションに最適です。

主な能力は以下の通り:

  • VonageビデオセッションへのWebRTCベースの接続
  • ビデオセッションへのオーディオおよびビデオストリームへのアクセス
  • 最大48 kHzのオーディオ・サンプル、1(モノラル)または2(ステレオ)オーディオ・チャンネルをサポート、自動フレーム処理機能付き
  • 最大フルHD(1080p)の解像度をサポートし、解像度とフレームレートをコントロール可能
  • セッションからのライブ・キャプション・データ受信のサポート
  • AIエンドポイント統合のためのPythonフレンドリーなインターフェース
  • LinuxベースのAIサーバー導入用に設計

Vonage Pipecatインテグレーション

パイプカット は、音声、動画、画像、テキストにわたる複雑なAIエージェントワークフローをオーケストレーションするためのオープンソースのPythonフレームワークです。OpenAI、Deepgram、ElevenLabs、AWS Nova SonicなどのSTT、LLM、TTSプロバイダを、メディア翻訳コードを書くことなく組み合わせて使用することができます。

VonageはPipecatと2つの統合を提供しており、それぞれ異なるトランスポートを使用している:

Pipecat用Vonageオーディオシリアライザー Vonageビデオトランスポート for Pipecat
API互換性 Vonage Video API & Vonage Voice API Video APIのみ
輸送 ウェブソケット ウェブRTC
メディア 音声のみ オーディオ+ビデオ
空室状況 Pipecat用Vonage Audio SerializerがPipecatディストリビューションに含まれ、Voice APIとVideo APIの両方のサンプルが含まれています。 Vonage Video Transport for Pipecat、Vonageデベロッパーポータルで利用可能に。
最適 ほとんどのオーディオAIユースケース - オーディオファースト、幅広いAPI互換性 Video API AIユースケース、低遅延要件

Pipecat用Vonageオーディオシリアライザー

Vonage Audio Serializer for Pipecatは、WebSocketを介してVonage VoiceおよびVideoセッションとPipecat処理パイプライン間のオーディオをブリッジします。音声フレーム変換、サンプルレートアライメント、DTMFメタデータを処理するため、開発者はメディア変換コードを書くことなく、PipecatのAIノードの成長ライブラリに直接接続することができます。Vonage Audio Serializer for Pipecatは既にPipecatディストリビューションに組み込まれており、Vonage Voice APIとVonage Video APIの両方のサンプルが含まれています。

Vonageビデオトランスポート for Pipecat

Vonage Video Transport for Pipecatは、AIエージェントをWebRTC経由でVonageビデオセッションに接続し、WebSocketベースの実装よりもレイテンシーを改善し、オーディオとビデオストリームの両方をフルサポートします。ビデオAIのユースケースやレイテンシが優先されるシナリオに最適です。Vonage Video Transport for PipecatはVonage開発者ポータルから入手可能で、Video APIで動作します。

どの道が自分に合っているか?

AIコネクターSDKの選択 AIミドルウェアを完全に制御し、Pythonを使用してAIエンドポイントへの独自のインターフェースを構築し、所有したい場合。

Pipecatインテグレーションを選択する STT、LLM、TTSベンダーが混在する柔軟なオープンソースのエージェントフレームワークをお望みで、コミュニティの最適化と成長するAIエコシステムの恩恵を受けたいとお考えなら。

どちらの経路もVonageによって完全にサポートされており、アーキテクチャに応じて使用することができます。

価格

Vonage AIコネクタは、AIへの接続を可能にするライブラリで、ビデオセッションまたは音声通話への基礎となる接続の使用率で課金されます。

Video API Voice API
AIコネクター 無料 無料
WebRTC接続 参加者1名につき 該当なし
ウェブソケット接続 オーディオコネクターレート WebSocketの持続時間あたり

結論最初のAIエージェントを導入する

Vonage AI Connectorsを使用することで、開発者はメディアインフラをゼロから開発することなく、リアルタイムAIエージェントを構築するためのクリーンでモダンなPythonフレンドリーなパスを手に入れることができます。音声ボットの構築、音声テキストとLLMの統合、リアルタイム合成応答の生成、完全なマルチモーダル動画AI体験の構築など、Vonageは必要な基盤を提供します。

以下のリソースは、あなたが始めるのに役立ちます: