
ボットとAI:AIボットのインターフェースにおける音声とテキストの比較
所要時間:1 分
AIボットをチャットボットにするか、Voiceボットにするか、どのように決めればいいのでしょうか?ユースケースの文脈はもちろん重要な要素ですが、それが決定打となるべきでしょうか? <span style="font-style: italic;">the</span>それとも、ユーザーが両方のチャンネルを利用できるようにすべきでしょうか?マイクロソフトのテクニカルエバンジェリストであるマーティン・ビービー氏、The Bot PlatformのCEO/共同創業者であるシド・ローレンス氏、OpearloのCTO/共同創業者であるオスカー・メリー氏が、ボット開発の最前線からの考えを語った。
この対談のビデオはこちらでご覧いただけます。
<youtube id="EG3fOTWlSDs"></youtube>
サム・マチン (Nexmo Developer Advocate & Alexa Champion):音声とテキスト。チャットボットにおけるテキストの利点について話してきましたが、音声ボットの利点もありました。両方必要なのでしょうか?それぞれの長所と短所は?状況に応じて使い分けるということでしょうか?また、物事は両方のチャンネルで利用可能であるべきなのでしょうか?音声とテキストでまったく同じ体験をユーザーにさせたい場合とそうでない場合があるのでしょうか?
シド・ローレンス (CEO/共同創設者 ボットプラットフォーム):先ほどオスカーが言っていた例のいくつかは、レシピや車から歩いてくるとき、両手が買い物袋でいっぱいになっているような場合だと思います。つまり、これは絶対にVoiceが必要なんです。間違いなく。他にも文脈はあると思います。フィードバック用のスクリーンや情報用のスクリーンが必要な場合、Voiceには問題がある。でも、そうだね。
オスカー・メリー (共同創設者兼CTO オペアロ:音声チャットとテキストチャットは全く違うものだということを覚えておくことが重要だと思います。Facebookメッセンジャー用にチャットボットを構築し、それをAmazon Alexaに移行しようとする企業がたくさんあります。しかし、それはまったくうまくいきません。逆に、Alexaアプリを持っている企業が、それをFacebook Messengerに移植しようとする場合も同じです。シドが言ったように、コンテキストを考える必要があります。
私が言いたいのは、最終的に人々やブランドがチャット・プラットフォームとボイス・プラットフォームの両方を利用する必要があるということです。
私たちがよく話題にするのは、運転中のユースケースです。フォード、BMW、VWは新車にアレクサを搭載すると発表しました。他の自動車会社も他のデジタル・アシスタントに追随しています。運転は、今後、音声にとって本当に大きなユースケースになると思います。しかし、そうはいっても、車に乗っていて、仕事場まで運転していて、そこでデジタルアシスタントと対話するようなユースケースは間違いなく考えられます。そして車から降りて、5分ほど歩いてオフィスに着くと、Facebookメッセンジャーでそれを続ける。ですから、両方について考えなければならないのは確かですが、シドが言ったように、両者はまったく異なるものであり、文脈について考えなければなりません。
「運転は、今後、音声にとって本当に大きなユースケースになると思う。
マーティン・ビービー (テクニカルエバンジェリスト マイクロソフト):現在、音声に関する課題のひとつは、実際に音声でシステムを設計しようとすると、予期せぬ問題や、現在の技術では克服するのが非常に難しいハードルが存在することだと思います。
例えば、私たちはごく最近、次のような企業と共同でアプリケーションを開発した。 ビージー.彼らは、企業からビジネスに関する情報を引き出そうとする組織です。ユースケースは、ユーザーが車の中でiPhoneを使い、ビージーのアプリケーションを使うというものです。そして、録音するか、Siriを起動して、「シェルと仕事をしたことがありますか?
シェルという会社の意図を理解し、その会社を認識するのはとても簡単だった。しかし、彼らは「ミスコという会社と仕事をしたことがあるか」という質問をしてきた。そのドメインや会社名には非常に特殊なのです。
そのため、ほとんどの音声システムは一般的な英語に対してトレーニングされています。特定の企業やそのドメイン特有の言語に対してトレーニングされていないのです。もう一つの例として、私は最近 プレクサス・ロー.プレクサス・ローでは、ディクテーションの中で使用する法律用語がたくさんあります。
「ほとんどの音声システムは、一般的な英語に対して訓練されています。特定の企業やそのドメイン特有の言語に対して訓練されていないのだ。
例えば、彼らはクレームについて尋ねていました。そして、通常のスピーチサービスのほとんどは、「クレーム」と言う代わりに、オレンジのように「クレメンタイン」と返していました。これでは、ユーザーが実際に何を望んでいるのかを理解するのは難しい。そこで私たちは、カスタム音声認識と呼ばれる、現在の音声認識技術のようなものでありながら、ドメイン固有の言語を大量に入力することで、より正確な音声認識を可能にするものについて、社内で多くの研究を行ってきました。
これらのシナリオはすべて、車の中や......アレクサが出てくるかもしれないので、もうアレクサとは言いません。しかし、アマゾンをベースとしたチャットシステムや様々なものは、すべて一般化された音声パターンをベースにしています。こういったものを本当に流行らせたいのであれば、これらのシステムにもドメイン固有の言語理解が必要になると思います。
"もし私たちがこのようなものを本当に流行らせたいのであれば、ドメイン固有の言語理解が必要になるだろう"
サムそうだね。私が導入した方法は...あなたがオフィスに導入したデバイスは...多分、様々なアシスタントのためのものですよね?特にVoiceに関しては、Alexaを搭載したデバイスを1つ持っているという考え方もできますが、実際には、複数の異なるデバイスを持ちたいかもしれません。つまり、スマートホームやショッピング、家庭内のあらゆることをアレクサに任せます。それから、まったく別のアシスタントを別の名前で持っていて、そちらはビジネス関連のことを処理するもので、マネーペニーとか呼んでいます。
そして、「この人と話したい」と言えば、そのドメインに入るというような考え方です。私たちが仕事のメールを開いたり、プライベートのメールを開いたりするのと同じように......人にはさまざまなペルソナ、さまざまな帽子がありますよね?
マーティン現時点でのアマゾンの課題としては、開発者としてアマゾンに話しかけても、彼らが言ったWAVファイルにアクセスできないことだと思います。私たちのコルタナの実装も同じで、WAVファイルがどこにあるかにアクセスできません。ですから、彼らの音声テキストに頼るしかないのです。
そのため、私たちがより高度な音声合成システムを開発する場合、音声アシスタントを使うのではなく、アプリにそれを組み込む必要があります。これは、大型の音声アシスタントやパーソナル・アシスタントが何らかの方法で克服しなければならない課題だと思います。開発者がWAVファイルや実際の音声にアクセスできるようにしなければなりません。
[編集部注 1時間のディスカッションAIボット技術の現状について]。