音声オートメーションの理解

はじめに

ボイス・オートメーションは、人間が応対することなくインバウンドの電話を管理することを可能にします。音声自動化には、発信者を適切な部署に誘導するシンプルなメニュー・システムから、自然言語を理解し文脈を保持する完全会話型のAIエージェントまで、さまざまなソリューションが含まれる。これらのソリューションはすべて、音声やキーパッドによる選択など、ユーザーの入力に反応するプログラム可能なコールフローに基づいています。

このガイドでは、Vonage Voice APIを使用した音声自動化の主要コンセプトを説明し、3つの実装アプローチを概説し、ニーズに合ったものを選択できるようにします。

シンプルIVR

アン インタラクティブ・ボイス・レスポンス（IVR） システムは、発信者にオプションのメニューを提供することで、電話応対を自動化する。発信者がある番号にダイヤルすると、次のようなプロンプトが表示される： 数字を入力するか、何か言ってください。 システムは彼らの入力に基づいて反応する。

従来のIVRはキーパッド(DTMF)入力のことで、発信者が電話のキーを押したときに発生する音のことです。最近のIVRでは、キーパッド入力に加え、音声による応答も受け付けることができます。

高度なIVR / 音声ボット

アン 高度なIVR / 音声ボット アプリケーションにNLU/LLMを統合すると、自然言語理解をサポートできます。例えば、発信者は次のように言うことができる。 なぜ空は青いのか？ そして、アプリケーションはその意図を解釈し、フォローアップの質問をし、会話のコンテキストを維持しながら、問題を解決するか、発信者を適切なチームに誘導することができます。このアプローチでは通常、Webhookを使用してコールフローを制御する。

AI音声エージェント

アン AI音声エージェント は、電話を処理し、自動音声認識 (ASR) を使ってユーザの話を聞き、大規模言語モデル (LLM) を使ってリクエストを処理し、アプリケーションにこれらの機能を統合すると、リアルタイムで自然な音声合成で応答するインテリジェント・アシスタントです。Vonage Voice APIでは、一般的に低遅延のWebSocketオーディオ・ストリーミングを使用して実装され、バージインなどのエクスペリエンスを実装するのに役立ちます。

HTTPウェブフックとWebSocketストリーミングの比較

これらのアプローチは、一般的に2つのパターンを使って実装される：HTTPウェブフックかWebSocketストリーミングだ。

HTTP ウェブフックVonage Voice API は、通話の進行に応じて HTTP リクエストをアプリケーションに送信します。アプリケーションは NCCO（呼制御オブジェクト）を使って、Vonageに次の動作を指示します。これは一般的にシンプルIVR そして高度なIVR / 音声ボットをガイドする。

ウェブソケット・ストリーミングアプリケーションとVonage Voiceプラットフォーム間の持続的な全二重接続。これは AI音声エージェント低レイテンシー実装のためのガイドを参照することで、バージインなどのエクスペリエンスを実装するのに役立ちます。詳細は Vonage Voice API の WebSockets.

また、この2つのパターンを1つのソリューションに組み合わせることもできる。

アプローチの選択

以下の機能は、典型的な実装で提供できるもの（アプリケーションと選択したAIプロバイダー）を示しており、Voice APIに組み込まれている機能ではありません。

	シンプルIVR	高度なIVR / 音声ボット	AI音声エージェント
最適	大量かつ予測可能な相互作用	複雑で多回転する会話	リアルタイム、レイテンシーに敏感な体験
入力タイプ	キーパッド（DTMF）＋音声入力	自然言語スピーチ	自然言語スピーチ
自然言語をサポートできる（NLU/LLM付き）
会話コンテキストを維持できる（アプリケーション内で）
応答待ち時間	標準（HTTPウェブフック）	標準（HTTPウェブフック）	低い（WebSocketストリーミング）
実装例		オープンAI	ディープグラム

さらに読む

このガイドで取り上げたソリューションの実装方法については、以下のハウツーガイドを参照してください：

シンプルIVR:キーパッドと音声入力の両方を取り込むプログラム可能なコールフローを作成し、音声自動化ソリューションの基礎を形成します。
高度なIVR / 音声ボット:OpenAIを利用した会話音声ボットを開発します。自然言語を処理し、会話のコンテキストを維持し、必要に応じて人間のエージェントに転送します。
AI音声エージェント:WebSocketストリーミングとDeepgramのVoice Agentプラットフォームを使用して、リアルタイムのAI音声エージェントを構築します。