Pipecat用Vonageオーディオシリアライザー

概要

パイプカットは、音声およびマルチモーダル会話AIアプリケーションを構築するためのオープンソースのフレームワークです。会話AIアプリケーションを構築するためのオープンソースのフレームワークです。音声合成や言語モデル、音声合成などのAIサービスを、ネットワーク・トランスポートや音声／ビデオ処理と並行してオーケストレーションする、言語モデル、音声合成などのAIサービスを、ネットワーク・トランスポートやオーディオ／ビデオ処理と並行してオーケストレーションします。低遅延で自然な音声による会話を実現します。

について Pipecat用Vonageオーディオシリアライザー は、Pipecat パイプラインとVonageプラットフォームの橋渡しをするトランスポートコンポーネントです。これは、Vonage VoiceやVideoセッションから音声を受信し、処理された音声を送信するために必要な音声フォーマットの変換とWebSocket 接続を処理します。音声をリアルタイムで送り返します。

仕組み

Vonageは、管理されたWebSocket接続を介して外部サービスにオーディオをルーティングします。Vonage Audio シリアライザーは、そのWebSocketストリームとPipecatの内部オーディオパイプライン間のプロトコルアダプタとして動作します。オーディオパイプライン間のプロトコルアダプタとして機能します：

Pipecatアプリケーションは、Vonageシリアライザーをトランスポートレイヤーとして使用するWebSocketサーバーを起動します。サーバを起動します。
Vonage はお客様のサーバーへの WebSocket 接続を開きます。オーディオ・コネクターまたはNCCO経由の音声通話から connect アクションだ。
シリアライザーは、入力されたVonageオーディオフォーマットをPipecatが期待するPCMフレームに変換します、に変換し、パイプラインに送り込みます。
パイプラインは、設定されたAIサービスを通じて音声を処理し、応答を返します。
シリアライザーは、出力音声をVonageが期待するフォーマットに変換し、WebSocket経由で送信します。に送信し、セッション参加者に再生されます。

他のVonage Pipecatインテグレーションとの関係

Vonageは、異なるユースケースに対応する2つの別々のPipecat統合を提供している：

統合	輸送	使用例
ボネージ・オーディオ・シリアライザー	オーディオWebSocket（オーディオコネクタ/ボイスNCCO）	音声またはビデオセッション用の音声専用AIパイプライン
Vonageビデオトランスポート for Pipecat	WebRTC（ビデオコネクタ）	ビデオアバターなど、ビデオも処理または生成するパイプライン

パイプラインがオーディオを処理して返すだけでよい場合は、Audio Serializerを使用します。またパイプラインでビデオフレームも扱う必要がある場合は、Vonage Video Transport for Pipecatを使用してください。

Vonageオーディオ・シリアライザーの使用時期

リアルタイム音声AIアシスタント： Vonageビデオ・セッション内または着信通話にLLMバックボーン音声ボットを展開する。セッション内またはインバウンドコールに導入します。
ライブテープ起こし、翻訳： セッションの音声をテープ起こしサービス翻訳された音声を参加者に返す
通話録音と分析 音声またはビデオ通話の会話内容をキャプチャして分析リアルタイムで
オーディオ・エフェクト処理： 参加者に届く前に、音声にフィルタリング、ノイズ除去、その他の変換を施す。参加者に届く前に、オーディオにフィルタリングやノイズ除去などの変換を施す。
自動モデレーション： コンプライアンスに反する発言や不適切な発言を発見し、対処する。する。

こちらも参照

PipecatをVonageセッションに接続する - ステップバイステップビデオと音声セッションのハウツーガイド
オーディオ・コネクター - Audio Connectorがオーディオをストリーミングする方法ビデオセッションからWebSocketへ
オーディオコネクタサーバーSDK - 独自のカスタムWebSocketオーディオ処理サーバーをPipecatなしで構築する
Vonageビデオトランスポート for Pipecat - オーディオだけでなくビデオも処理するパイプラインのためのPipecatの統合
Pipecatドキュメント