Pipecat用Vonageオーディオシリアライザー
概要
パイプカット は、音声およびマルチモーダル会話AIアプリケーションを構築するためのオープンソースのフレームワークです。 会話AIアプリケーションを構築するためのオープンソースのフレームワークです。音声合成や言語モデル、音声合成などのAIサービスを、ネットワーク・トランスポートや音声/ビデオ処理と並行してオーケストレーションする、 言語モデル、音声合成などのAIサービスを、ネットワーク・トランスポートやオーディオ/ビデオ処理と並行してオーケストレーションします。 低遅延で自然な音声による会話を実現します。
について Pipecat用Vonageオーディオシリアライザー は、Pipecat パイプラインとVonageプラットフォームの橋渡しをするトランスポートコンポーネントです。これは、Vonage VoiceやVideoセッションから音声を受信し、処理された音声を送信するために必要な音声フォーマットの変換とWebSocket 接続を処理します。 音声をリアルタイムで送り返します。
仕組み
Vonageは、管理されたWebSocket接続を介して外部サービスにオーディオをルーティングします。Vonage Audio シリアライザーは、そのWebSocketストリームとPipecatの内部オーディオパイプライン間のプロトコルアダプタとして動作します。 オーディオパイプライン間のプロトコルアダプタとして機能します:
- Pipecatアプリケーションは、Vonageシリアライザーをトランスポートレイヤーとして使用するWebSocketサーバーを起動します。 サーバを起動します。
- Vonage はお客様のサーバーへの WebSocket 接続を開きます。
オーディオ・コネクターまたはNCCO経由の音声通話から
connectアクションだ。 - シリアライザーは、入力されたVonageオーディオフォーマットをPipecatが期待するPCMフレームに変換します、 に変換し、パイプラインに送り込みます。
- パイプラインは、設定されたAIサービスを通じて音声を処理し、応答を返します。
- シリアライザーは、出力音声をVonageが期待するフォーマットに変換し、WebSocket経由で送信します。 に送信し、セッション参加者に再生されます。
他のVonage Pipecatインテグレーションとの関係
Vonageは、異なるユースケースに対応する2つの別々のPipecat統合を提供している:
| 統合 | 輸送 | 使用例 |
|---|---|---|
| ボネージ・オーディオ・シリアライザー | オーディオWebSocket(オーディオコネクタ/ボイスNCCO) | 音声またはビデオセッション用の音声専用AIパイプライン |
| ビデオ・コネクタ Pipecatとの統合 | WebRTC(ビデオコネクタ) | ビデオアバターなど、ビデオも処理または生成するパイプライン |
パイプラインがオーディオを処理して返すだけでよい場合は、Audio Serializerを使用します。パイプラインで パイプラインでビデオフレームも扱う必要がある場合は、Video Connectorトランスポートを使用します。
Vonageオーディオ・シリアライザーの使用時期
- リアルタイム音声AIアシスタント: Vonageビデオ・セッション内または着信通話にLLMバックボーン音声ボットを展開する。 セッション内またはインバウンドコールに導入します。
- ライブテープ起こし、翻訳: セッションの音声をテープ起こしサービス 翻訳された音声を参加者に返す
- 通話録音と分析 音声またはビデオ通話の会話内容をキャプチャして分析 リアルタイムで
- オーディオ・エフェクト処理: 参加者に届く前に、音声にフィルタリング、ノイズ除去、その他の変換を施す。 参加者に届く前に、オーディオにフィルタリングやノイズ除去などの変換を施す。
- 自動モデレーション: コンプライアンスに反する発言や不適切な発言を発見し、対処する。 する。
こちらも参照
- PipecatをVonageセッションに接続する - ステップバイステップ ビデオと音声セッションのハウツーガイド
- オーディオ・コネクター - Audio Connectorがオーディオをストリーミングする方法 ビデオセッションからWebSocketへ
- オーディオコネクタサーバーSDK - 独自の カスタムWebSocketオーディオ処理サーバーをPipecatなしで構築する
- ビデオ・コネクタ Pipecatとの統合 - オーディオだけでなくビデオも処理するパイプラインのためのPipecatの統合
- Pipecatドキュメント