
Bots e IA: Voice vs. Text para la interfaz de tu bot de IA
Tiempo de lectura: 6 minutos
¿Cómo decidir si tu bot de inteligencia artificial debe ser un chatbot o un bot de voz? El contexto del caso de uso es un factor importante, por supuesto, pero ¿debería ser el factor decisivo o debería poner ambos canales a disposición de los usuarios? <span style="font-style: italic;">the</span> el factor decisivo o deberías poner ambos canales a disposición de los usuarios? Martin Beeby, evangelista técnico de Microsoft, Syd Lawrence, CEO y cofundador de The Bot Platform, y Oscar Merry, CTO y cofundador de Opearlo, compartieron sus opiniones desde la primera línea del desarrollo de bots.
Vea el Video de nuestra conversación aquí, o desplácese por debajo del Video para leer la transcripción completa.
<youtube id="EG3fOTWlSDs"></youtube>
Sam Machin (Nexmo Developer Advocate & Alexa Champion): Voice versus texto. Acabamos de hablar de algunas de las ventajas del texto para los chatbots y había algo para los bots de voz. ¿Necesitamos ambos? ¿Cuáles son los pros y los contras de cada uno? ¿Se trata de elegir el más adecuado para cada situación? ¿Y las cosas deberían estar disponibles en ambos canales? ¿Hay cosas en las que me gustaría que el usuario tuviera exactamente la misma experiencia en voz y en texto o no?
Syd Lawrence (CEO y cofundador de La Plataforma Bot): Creo que algunos de los ejemplos que Oscar estaba diciendo antes como recetas o usted está caminando en de su coche, como sus manos están llenas de bolsas de la compra. Quiero decir que eso tiene que ser Voice. Sin ninguna duda. Creo que hay otros contextos. Bueno, a veces cuando necesitas una pantalla para retroalimentación o una pantalla para información donde la voz tiene problemas. Pero sí, el contexto es definitivamente importante.
Oscar Merry (Cofundador y Director Técnico de Opearlo: Sí, creo que también es importante recordar que el chat de voz y el de texto son muy, muy diferentes. Vemos muchas empresas que han creado un chatbot para Facebook Messenger y quieren trasladarlo a Amazon Alexa pensando que será un proceso muy sencillo y que podemos portarlo literalmente. Y no funciona en absoluto. Y lo mismo al revés, si vemos empresas que tienen una aplicación de Alexa y quieren portarla a Facebook Messenger. Y realmente tienes que tener cuidado al hacer eso, tienes que pensar en el contexto, como dijo Syd.
Creo que, con el tiempo, las personas y las marcas tendrán que estar presentes tanto en las plataformas de chat como en las de Voice, porque la gente quiere tener esa flexibilidad.
Algo de lo que hablamos mucho es del caso de uso en la conducción. Ford, BMW y VW han anunciado que incorporarán Alexa a sus nuevos modelos de coche. Y estás viendo otras compañías de automóviles seguir con los otros asistentes digitales. Y creo que la conducción va a ser un caso de uso muy, muy importante para la voz en el futuro. Pero dicho esto, definitivamente se puede ver el caso de uso en el que estás en tu coche, estás conduciendo al trabajo, estás interactuando con tu asistente digital allí. Y luego, cuando sales del coche y caminas unos cinco minutos hacia la oficina, sigues interactuando a través de Facebook Messenger. Así que creo que definitivamente hay que pensar en ambos, pero como dijo Syd, son muy, muy diferentes y hay que pensar en el contexto.
"Creo que la conducción va a ser, de hecho, un caso de uso muy, muy importante para la voz en el futuro".
Martin Beeby (Evangelista técnico de Microsoft): En mi opinión, uno de los retos actuales de la voz es que, cuando te adentras en el diseño de un sistema de voz, a veces surgen problemas y obstáculos inesperados que son muy difíciles de superar con la tecnología actual.
Así, por ejemplo, hace muy poco creamos una aplicación con una empresa llamada Beezy. Y ellos son una organización que trata de extraer información de las empresas sobre su negocio. Y así el caso de uso es que el usuario está en su coche y están usando su iPhone y están usando la aplicación Beezy. Y graban o activan con Siri y dicen: "¿Hemos trabajado con Shell antes?" Como en la compañía petrolera o lo que sea.
Y conseguimos que funcionara de forma bastante sencilla y fue bastante fácil descifrar la intención y reconocer la empresa, Shell. Pero luego nos preguntaban: "¿Hemos trabajado antes con la empresa Misco?" Y Misco no es una palabra muy común en el idioma inglés. Es muy específico de ese dominio o cualquier nombre de empresa.
La mayoría de los sistemas de voz están entrenados para el inglés general. No están entrenados contra empresas específicas o su lenguaje específico. Otro ejemplo: hace poco trabajé en un robot de voz para Plexus Law. Plexus Law utiliza mucho inglés jurídico en sus dictados.
"La mayoría de los sistemas de voz están entrenados contra el inglés general. No están entrenados contra empresas específicas o su lenguaje específico de dominio".
Y así, por ejemplo, decían... preguntaban por un demandante. Y la mayoría de los servicios regulares de habla estaban volviendo ... en lugar de decir, demandante, que se referían como Clementine, como la naranja. Y, obviamente, se hace muy difícil entender lo que el usuario realmente quiere. Así que hemos investigado mucho en nuestra empresa sobre lo que llamamos reconocimiento de voz personalizado, que es como la tecnología de voz actual, pero en la que puedes alimentarla con montones de lenguaje específico del dominio para que sea cada vez más precisa.
Y creo que todos estos escenarios alrededor en coche o ... No voy a decir Alexa de nuevo en caso de que ella aparece. Pero los sistemas de chat basados en Amazon y varias cosas, todos se basan en patrones de habla generalizados. Y creo que si queremos que estas cosas realmente despeguen, vamos a necesitar la comprensión del lenguaje específico del dominio en estos sistemas, así como por aplicación, tal vez, la comprensión del lenguaje específico del dominio.
"Si queremos que estas cosas despeguen de verdad, vamos a necesitar una comprensión del lenguaje específica del dominio"
Sam: Sí. Así que la forma en que he desplegado el ... el dispositivo que se despliega en su oficina para, ya sabes ... y tal vez es incluso los diferentes asistentes, ¿no es así? Puedo pensar, especialmente con el tema de la voz, que la idea de que tienes este dispositivo que tiene Alexa en él, pero en realidad, yo podría querer tener varios diferentes ... así que tengo Alexa podría ser la forma en que administro mi casa. Así que tengo toda mi casa inteligente y las compras y el tipo de cosas domésticas allí. Y luego tengo un asistente completamente diferente con un nombre diferente que es cómo manejo mis cosas de negocios, lo llamo Moneypenny o algo así.
Y ese tipo de idea que decimos quiero hablar con este y entonces eso nos pone en un dominio. Al igual que abrimos nuestro correo electrónico del trabajo o abrimos nuestro correo electrónico personal, o ... la gente tiene diferentes personas, diferentes sombreros, ¿no?
Martin: Creo que uno de los retos tal vez con el de Amazon en el momento es que si usted habla con eso, como el desarrollador, usted no consigue el acceso a la realidad lo que dijeron, el archivo WAV. Y lo mismo ocurre con nuestra implementación de Cortana: no tienes acceso a dónde está el archivo WAV. Así que tienes que confiar en su voz a texto.
Así que la mayoría de los sistemas avanzados de conversión de voz en texto tenemos que integrarlos nosotros mismos en las aplicaciones en lugar de usar estos asistentes de voz. Y creo que es un reto que estos grandes asistentes de voz o asistentes personales van a tener que superar de alguna manera. Vamos a tener que dar a los desarrolladores acceso a los archivos WAV, al audio real.
[Nota del editor debate completo de una hora sobre el estado de la tecnología bot de IA].