オーディオコネクタサーバーSDK

概要

について Vonage Audio Connector Server SDK は、サーバサイドの WebSocket エンドポイントを構築するための Python ライブラリです。これは の上に構築されています。 オーディオ・コネクターライブ・セッションから生のオーディオ ライブセッションから生のオーディオストリームを抽出し、外部のWebSocketサーバーにルーティングすることができます。

SDKは、低レベルのWebSocketプロトコル、接続ライフサイクル、オーディオフレームバッファリングを抽象化します、 およびタイミング管理を抽象化し、オーディオ処理とAIサービスの統合に集中できるようにします。

仕組み

Vonage Videoセッションがオーディオ・コネクタを使用すると、セッションのメディア・ルータがWebSocket 接続を開き、PCM オーディオのストリーミングを開始します。Audio Connector Server SDK は、イベント駆動モデルにより、次のような接続を処理します。 イベントドリブンモデルを通してその接続を処理します:

  1. SDKは、設定可能なホストとポートでリッスンしているWebSocketサーバーを起動します。
  2. Audio Connector が接続を開くと、SDK は on_connect イベントを発生させ クライアント・ハンドルをアプリケーション・コードに渡します。
  3. アプリケーションは、オーディオフレームを受信するためのハンドラをクライアントハンドルに登録します。 (on_message)、切断の検出(on_disconnect)、エラー処理(on_error).
  4. アプリケーションは音声を処理します。 に転送するなどして音声を処理し、処理した音声や制御メッセージを同じ クライアントハンドルを経由してセッションに送り返します。

SDKはオーディオ・バッファリングとフレーム・タイミングを内部的に管理し、オーディオをセッションに送り返す際のスムーズな再生同期を保証します。 同期を保証します。

主な能力

  • イベント駆動型アーキテクチャ: サーバーのライフサイクル(開始、停止)と接続イベント(connect、 接続、切断、メッセージ、エラー)は非同期コールバックで処理され、 アプリケーション・ロジックは接続管理から切り離されます。 接続管理から切り離されます。
  • 双方向リアルタイム・オーディオ: セッションから生のPCMオーディオを受信し、処理されたPCMオーディオを送り返す。 設定可能なサンプルレート(8kHz、16kHz、24kHz)でPCMオーディオを送り返す。
  • 複数の同時接続: 複数の Audio Connector セッションを同時に処理します、 マルチテナントまたはスケーリングされたAIワークフローに適しています。
  • SSL/TLS対応: 提供されるSSLコンテキストを使用したセキュアなWebSocket接続を本番環境向けに デプロイメント。
  • オーディオフレーム管理: 内蔵のバッファリングとタイミング・コントロールにより、送信オーディオ・フレームを同期させます。 フレームを同期させるので、自分でペーシング・ロジックを実装する必要はありません。

本SDKの使用時期

Audio Connector Server SDK は、Vonage Video セッションのライブ音声をサーバ側の処理パイプラインに接続する必要がある場合に使用します。 サーバー側の処理パイプラインに接続する必要がある場合に使用します。一般的なシナリオは次のとおりです:

  • 会話型AIアシスタント: 音声合成 → LLM → 音声合成パイプラインを使用して音声ボットを構築。 音声合成パイプラインを使用して音声ボットを構築します。
  • ライブテープ起こし、翻訳: 音声をテープ起こしサービスにストリーミングし キャプションや翻訳された音声をリアルタイムで返します。
  • センチメントとトーン分析: ライブ通話中に感情やコンプライアンス信号を検出。
  • 音声バイオメトリクス: 音声ストリームから話者を識別または認証する。
  • リアルタイムのコーチング: 顧客との通話中にAIが生成したフィードバックをエージェントに提供する。
  • ノートの自動作成: セッションの音声からサマリー、トランスクリプト、アクションアイテムを作成。
  • コンテンツモデレーション: 不適切なスピーチやコンプライアンスに反するスピーチには、その都度フラグを立てる。

音声だけでなく、ビデオ処理やビデオアバターも使用する場合は、次のことを考慮してください。 ビデオコネクター または ビデオ・コネクタ Pipecatとの統合 その代わりだ。

独自の音声処理を実装するのではなく、事前に構築されたPipecat AIフレームワークパイプラインに接続したい場合は、以下を参照してください。 を参照してください。 Pipecat用Vonageオーディオシリアライザー.

こちらも参照