https://d226lax1qjow5r.cloudfront.net/blog/blogposts/voice-api-speech-recognition-now-in-general-availability/blog_speech-recognition_1120_1200x600.png

Victor ShisterovResponsable de producto de Voice API

Victor es director de producto de Vonage Voice API, con siete años de experiencia en el sector de las telecomunicaciones y desarrollador de software desde la infancia. Le apasiona hacer que las cosas técnicamente complejas sean fáciles de entender y utilizar, manteniendo una API potente, autodescriptiva y coherente. Cuando no está inventando o programando, construye maquetas y toca instrumentos musicales populares.

Ya está disponible la API de reconocimiento de voz

Publicado el November 20, 2020

#voice-api

#asr

Tiempo de lectura: 1 minuto

Nos complace anunciar que Reconocimiento de voz (ASR) ya está disponible de forma general. He aquí el resumen de las mejoras que hemos introducido durante la fase Beta a partir de los valiosos comentarios recibidos:

La identificación de llamadas es ahora opcional

A diferencia de la entrada DTMF, la llamada (también conocida como tramo) era un parámetro obligatorio para ASR. Esto resultaba un poco incómodo, ya que había que construir la NCCO dinámicamente sobre la marcha.

Ahora el parámetro uuid es opcional, con el primer tramo de la llamada por defecto, lo que se ajusta a la mayoría de los casos de uso de ASR, como IVR o bots de voz. Estos casos de uso suelen tener un único tramo en la llamada, ya sea entrante desde la RTC a la aplicación, o saliente desde la aplicación al número de teléfono de la RTC.

Aún puede especificar el tramo explícitamente, lo que podría ser útil en escenarios más complejos.

Tipo de entrada como parámetro

Para configurar la input para que acepte sólo tonos DTMF, sólo voz o ambos, antes tenía que proporcionar dtmf y/o speech respectivamente aunque no quisieras establecer ninguna configuración personalizada para ninguno de ellos. Así que el caso por defecto requería que usted tuviera la input acción presentada de la siguiente manera:

[
  {
      "action": "input",
      "dtmf": { 
      },
      "speech": {
          "uuid": "0a41d330-853b-4294-8cbb-69e8e65dc9d4"
      }
  }
]

Hemos introducido un nuevo parámetro llamado typeque le permite establecer explícitamente el tipo de acción de entrada que desea: [ "dtmf" ], [ "speech" ] o [ "dtmf", "speech" ] en el caso de ambos. Teniendo en cuenta que el parámetro uuid para el habla es ahora opcional, el objeto NCCO tanto para DTMF como para ASR activado tiene ahora un aspecto tan conciso como:

[
  {
      "action": "input",
      "type": [ "dtmf", "speech" ]
  }
]

Puede configurar parámetros DTMF/ASR personalizados como antes con dtmf/speech respectivamente. Por compatibilidad con versiones anteriores, se sigue admitiendo el enfoque anterior del escenario de entrada DTMF predeterminado.

Soporte completo del SDK

Todos los SDK para servidores son ahora compatibles con ASR.

Con estas mejoras, convertir tu IVR DTMF en un asistente de voz de habla natural o crear uno desde cero es superfácil. Consulte nuestra Guía ASR, Referencia NCCOy el Tutorial sobre bots de voz para obtener más información.

Nunca dejamos de mejorar y perfeccionar nuestra API y la plataforma, así que esperamos recibir más comentarios y vuestras increíbles aplicaciones.