Pipecat用Vonageオーディオシリアライザー

概要

パイプカット は、音声およびマルチモーダル会話AIアプリケーションを構築するためのオープンソースのフレームワークです。 会話AIアプリケーションを構築するためのオープンソースのフレームワークです。音声合成や言語モデル、音声合成などのAIサービスを、ネットワーク・トランスポートや音声/ビデオ処理と並行してオーケストレーションする、 言語モデル、音声合成などのAIサービスを、ネットワーク・トランスポートやオーディオ/ビデオ処理と並行してオーケストレーションします。 低遅延で自然な音声による会話を実現します。

について Pipecat用Vonageオーディオシリアライザー は、Pipecat パイプラインとVonageプラットフォームの橋渡しをするトランスポートコンポーネントです。これは、Vonage VoiceやVideoセッションから音声を受信し、処理された音声を送信するために必要な音声フォーマットの変換とWebSocket 接続を処理します。 音声をリアルタイムで送り返します。

仕組み

Vonageは、管理されたWebSocket接続を介して外部サービスにオーディオをルーティングします。Vonage Audio シリアライザーは、そのWebSocketストリームとPipecatの内部オーディオパイプライン間のプロトコルアダプタとして動作します。 オーディオパイプライン間のプロトコルアダプタとして機能します:

  1. Pipecatアプリケーションは、Vonageシリアライザーをトランスポートレイヤーとして使用するWebSocketサーバーを起動します。 サーバを起動します。
  2. Vonage はお客様のサーバーへの WebSocket 接続を開きます。 オーディオ・コネクターまたはNCCO経由の音声通話から connect アクションだ。
  3. シリアライザーは、入力されたVonageオーディオフォーマットをPipecatが期待するPCMフレームに変換します、 に変換し、パイプラインに送り込みます。
  4. パイプラインは、設定されたAIサービスを通じて音声を処理し、応答を返します。
  5. シリアライザーは、出力音声をVonageが期待するフォーマットに変換し、WebSocket経由で送信します。 に送信し、セッション参加者に再生されます。

他のVonage Pipecatインテグレーションとの関係

Vonageは、異なるユースケースに対応する2つの別々のPipecat統合を提供している:

統合 輸送 使用例
ボネージ・オーディオ・シリアライザー オーディオWebSocket(オーディオコネクタ/ボイスNCCO) 音声またはビデオセッション用の音声専用AIパイプライン
ビデオ・コネクタ Pipecatとの統合 WebRTC(ビデオコネクタ) ビデオアバターなど、ビデオも処理または生成するパイプライン

パイプラインがオーディオを処理して返すだけでよい場合は、Audio Serializerを使用します。パイプラインで パイプラインでビデオフレームも扱う必要がある場合は、Video Connectorトランスポートを使用します。

Vonageオーディオ・シリアライザーの使用時期

  • リアルタイム音声AIアシスタント: Vonageビデオ・セッション内または着信通話にLLMバックボーン音声ボットを展開する。 セッション内またはインバウンドコールに導入します。
  • ライブテープ起こし、翻訳: セッションの音声をテープ起こしサービス 翻訳された音声を参加者に返す
  • 通話録音と分析 音声またはビデオ通話の会話内容をキャプチャして分析 リアルタイムで
  • オーディオ・エフェクト処理: 参加者に届く前に、音声にフィルタリング、ノイズ除去、その他の変換を施す。 参加者に届く前に、オーディオにフィルタリングやノイズ除去などの変換を施す。
  • 自動モデレーション: コンプライアンスに反する発言や不適切な発言を発見し、対処する。 する。

こちらも参照