https://d226lax1qjow5r.cloudfront.net/blog/blogposts/voice-api-speech-recognition-now-in-general-availability/blog_speech-recognition_1120_1200x600.png

Victor ShisterovVoice APIプロダクトマネージャー

ビクターはVonage Voice APIのプロダクト・マネージャーで、通信業界で7年の経験を持ち、幼少の頃からのソフトウェア開発者でもある。強力なAPIを自己記述的で一貫性のあるものにすることで、技術的に複雑なものを理解しやすく、使いやすくすることに情熱を注いでいる。発明やコーディング以外の時間は、模型を作ったり民族楽器を演奏したりする。

Voice APIの音声認識が一般提供開始

最終更新日 November 20, 2020

#voice-api

#asr

所要時間：1 分

この度、我々は音声認識(ASR)が一般利用可能になったことをお知らせいたします！以下は、貴重なフィードバックに基づくベータ段階での改善点の概要です：

コールIDがオプションに

DTMF入力とは異なり、コール（レグとも呼ばれる。レグ)IDはASRの必須パラメータだった。NCCOをその場で動的に構築しなければならないため、少々不便だった。

これで uuidこれは、IVRや音声ボットのようなASRのユースケースの大半に適合する。これらのユースケースでは、通常、PSTNからアプリケーションへのインバウンド、またはアプリケーションからPSTNの電話番号へのアウトバウンドのどちらか、コールの単一のレッグがあります。

脚を明示的に指定することも可能で、より複雑なシナリオで役に立つだろう。

パラメータとしての入力タイプ

アクションを inputアクションをDTMFトーンのみ、スピーチのみ、または両方を受け付けるように設定するには、以前は dtmfまたは speechオブジェクトをそれぞれ指定する必要がありました。そのため、デフォルトでは inputアクションは次のように表示されます：

[
  {
      "action": "input",
      "dtmf": { 
      },
      "speech": {
          "uuid": "0a41d330-853b-4294-8cbb-69e8e65dc9d4"
      }
  }
]

という新しいパラメーターを導入した。 typeという新しいパラメーターを導入しました： [ "dtmf" ], [ "speech" ]または [ "dtmf", "speech" ]を指定することができます。という新しいパラメーターを導入しました。 uuidスピーチのNCCOオブジェクトは、DTMFとASRの両方がアクティブになった場合、次のように簡潔になります：

[
  {
      "action": "input",
      "type": [ "dtmf", "speech" ]
  }
]

カスタムDTMF/ASRパラメータは、以前と同じように次のように設定できます。 dtmf/speechオブジェクトで設定できます。後方互換性のために、デフォルトのDTMF入力シナリオの以前のアプローチもまだサポートされています。

SDKフルサポート

利用可能なサーバーSDKがASRをサポートするようになりました。

これらの改善により、DTMF IVRを自然な音声の音声アシスタントに変換したり、ゼロから音声アシスタントを作成したりすることが非常に簡単になりました。私たちの ASRガイド, NCCOリファレンスおよびボット・チュートリアルをご覧ください。

私たちはAPIとプラットフォームの改善と改良を決して止めませんので、より多くのフィードバックとあなたの素晴らしいアプリを楽しみにしています！