https://a.storyblok.com/f/270183/99270/4b359a4f2f/blog_speech-recognition_1120_1200x600.png

Victor ShisterovChef de produit Voice API

Victor est chef de produit pour l'API Voice de Vonage, avec sept ans d'expérience dans l'industrie des télécommunications, et développeur de logiciels depuis son enfance. Il est passionné par l'idée de rendre les choses techniquement complexes faciles à comprendre et à utiliser, en faisant en sorte que les API puissantes soient auto-descriptives et cohérentes. Lorsqu'il n'invente pas et ne code pas, il construit des modèles réduits et joue d'instruments de musique folkloriques.

La reconnaissance vocale Voice API est désormais disponible en version générale

Publié le November 20, 2020

#voice-api

#asr

Temps de lecture : 1 minute

Nous sommes heureux d'annoncer que reconnaissance vocale (ASR) est maintenant disponible ! Voici un résumé des améliorations que nous avons apportées au cours de la phase bêta sur la base d'un retour d'information précieux :

L'identification des appels est désormais facultative

Contrairement à l'entrée DTMF, l'appel (également connu sous le nom de jambe) était un paramètre obligatoire pour l'ASR. C'était un peu gênant car il fallait construire le NCCO dynamiquement à la volée.

Désormais, le paramètre uuid est optionnel, avec le premier segment de l'appel comme valeur par défaut, ce qui correspond à la majorité des cas d'utilisation du SRA tels que le SVI ou les robots vocaux. Ces cas d'utilisation ont généralement un seul segment dans l'appel, soit entrant du RTC vers l'application, soit sortant de l'application vers le numéro de téléphone du RTC.

Vous pouvez toujours spécifier la jambe explicitement, ce qui peut être utile dans des scénarios plus complexes.

Type d'entrée en tant que paramètre

Pour configurer l'action input pour qu'elle accepte uniquement les tonalités DTMF, uniquement la parole ou les deux, vous deviez auparavant fournir les informations suivantes dtmf et/ou speech respectivement, même si vous ne souhaitez pas définir de paramètres personnalisés pour l'un d'entre eux. Dans le cas par défaut, l'action input présentée de la manière suivante :

[
  {
      "action": "input",
      "dtmf": { 
      },
      "speech": {
          "uuid": "0a41d330-853b-4294-8cbb-69e8e65dc9d4"
      }
  }
]

Nous avons introduit un nouveau paramètre appelé typequi vous permet de définir explicitement le type d'action d'entrée que vous souhaitez : [ "dtmf" ], [ "speech" ] ou [ "dtmf", "speech" ] dans le cas des deux. En gardant à l'esprit que le paramètre uuid pour la parole est désormais facultatif, l'objet NCCO pour les DTMF et les ASR activés se présente désormais de manière aussi concise que suit :

[
  {
      "action": "input",
      "type": [ "dtmf", "speech" ]
  }
]

Vous pouvez définir des paramètres DTMF/ASR personnalisés comme auparavant avec dtmf/speech respectivement. Pour des raisons de compatibilité ascendante, l'approche précédente du scénario d'entrée DTMF par défaut est toujours prise en charge.

Support complet du SDK

Tous les SDK serveur prennent désormais en charge la RAS.

Grâce à ces améliorations, il est très facile de convertir votre SVI DTMF en un assistant vocal à reconnaissance vocale ou d'en créer un à partir de zéro. Consultez notre guide ASR, référence NCCOet Tutoriel sur les robots Voice pour en savoir plus.

Nous ne cessons d'améliorer notre API et notre plateforme. Nous attendons donc avec impatience vos commentaires et vos applications incroyables !