https://d226lax1qjow5r.cloudfront.net/blog/blogposts/voice-text-ai-bot-interface/722483e8-a628-441d-a6cf-08356a5beb3a_Bots-Clip5_800x300.jpg

Bots et IA : Voice vs. Text pour l'interface de votre bot d'IA

Publié le May 14, 2021

Temps de lecture : 6 minutes

Comment décider si votre bot d'IA doit être un chatbot ou un voice bot ? Le contexte du cas d'utilisation est bien sûr un facteur important, mais doit-il être le facteur décisif ou faut-il mettre les deux canaux à la disposition des utilisateurs ? <span style="font-style: italic;">the</span> facteur décisif ou devriez-vous mettre les deux canaux à la disposition des utilisateurs ? Martin Beeby, évangéliste technique chez Microsoft, Syd Lawrence, PDG et cofondateur de The Bot Platform, et Oscar Merry, directeur technique et cofondateur d'Opearlo, nous ont fait part de leurs réflexions sur le développement des robots.

Regardez la vidéo de notre conversation ici, ou faites défiler sous la vidéo pour lire la transcription complète.

<youtube id="EG3fOTWlSDs"></youtube>

Sam Machin (Nexmo Developer Advocate & Alexa Champion) : La voix contre le texte. Nous venons donc de parler de certains avantages du texte pour les chatbots et il y avait quelque chose pour les bots vocaux. Avons-nous besoin des deux ? Quels sont les avantages et les inconvénients de chacun ? S'agit-il de choisir la bonne solution pour la bonne situation ? Et les choses doivent-elles être disponibles sur les deux canaux ? Y a-t-il des choses pour lesquelles je voudrais pouvoir permettre à l'utilisateur d'avoir exactement la même expérience sur la voix et le texte ou non ?

Syd Lawrence (PDG et cofondateur de The Bot Platform) : Je pense que certains des exemples cités par Oscar tout à l'heure, comme les recettes de cuisine ou le fait que vous reveniez de votre voiture et que vos mains soient remplies de sacs de courses, doivent être traités par la voix. Je veux dire que cela doit de loin être de la Voice. Sans l'ombre d'un doute. Je pense qu'il y a certainement d'autres contextes. Parfois, lorsque vous avez besoin d'un écran pour le feedback ou d'un écran pour l'information, la voix pose des problèmes. Mais oui, le contexte est vraiment important.

Oscar Merry (Co-fondateur et directeur technique de Opearlo: Oui. Je pense qu'une chose qui est vraiment importante à retenir aussi, c'est que le chatbot vocal et le chatbot textuel sont très, très différents. Nous voyons beaucoup d'entreprises qui ont construit un chatbot pour Facebook Messenger et qui veulent le transférer sur Amazon Alexa en pensant que ce sera un processus très simple et qu'il suffira de le porter. Et cela ne fonctionne pas du tout. Et c'est la même chose dans l'autre sens, si nous voyons des entreprises qui ont une application Alexa et qui veulent la porter sur Facebook Messenger. Et il faut vraiment faire attention, il faut penser au contexte, comme Syd l'a dit.

Je dirais qu'il y a un point sur lequel je pense qu'à terme, les gens et les marques devront être présents à la fois sur les plateformes de chat et sur les plateformes vocales, car les gens veulent avoir cette flexibilité.

L'une des choses dont nous parlons beaucoup est le cas d'utilisation pour la conduite. Ford, BMW et VW ont tous annoncé l'intégration d'Alexa dans leurs nouveaux modèles de voitures. D'autres constructeurs automobiles suivent avec d'autres assistants numériques. Et je pense que la conduite sera en fait, comme un cas d'utilisation vraiment, vraiment important pour la voix à l'avenir. Cela dit, on peut tout à fait imaginer un cas d'utilisation où vous êtes dans votre voiture, vous vous rendez au travail, vous interagissez avec votre assistant numérique. Puis, lorsque vous sortez de la voiture et que vous marchez peut-être pendant les cinq minutes qui suivent jusqu'au bureau, vous continuez à le faire par le biais de Facebook Messenger. Je pense donc qu'il faut absolument penser aux deux, mais comme Syd l'a dit, ils sont très, très différents et il faut penser au contexte.

"Je pense que la conduite sera en fait un cas d'utilisation très, très important pour la Voice à l'avenir."

Martin Beeby (évangéliste technique chez Microsoft) : Je pense que l'un des défis de la voix à l'heure actuelle est que si vous vous lancez dans la conception d'un système vocal, vous rencontrez parfois des problèmes et des obstacles inattendus qu'il est très difficile de surmonter avec la technologie actuelle.

Par exemple, nous avons récemment créé une application avec une société appelée Beezy. Il s'agit d'une organisation qui tente d'extraire des informations sur les activités des entreprises. Le cas d'utilisation est le suivant : l'utilisateur est dans sa voiture, il utilise son iPhone et l'application Beezy. Il enregistre ou active Siri et demande : "Avons-nous déjà travaillé avec Shell ?", c'est-à-dire avec la compagnie pétrolière ou autre.

Nous avons réussi à faire fonctionner ce système assez simplement et il a été assez facile de déterminer l'intention et de reconnaître l'entreprise, Shell. Mais ils ont ensuite posé des questions du type "Avons-nous déjà travaillé avec une société Misco ?" Et Misco n'est en fait pas un mot très courant utilisé dans la langue anglaise. Il est très spécifique à ce domaine ou à tout autre nom de société.

La plupart des systèmes vocaux sont donc formés à l'anglais général. Ils ne sont pas formés à des entreprises spécifiques ou au langage propre à leur domaine. Autre exemple : j'ai récemment travaillé sur un robot vocal pour Plexus Law. Plexus Law utilise beaucoup d'anglais juridique dans ses dictées.

"La plupart des systèmes vocaux sont formés à l'anglais général. Ils ne sont pas formés à des entreprises spécifiques ou au langage propre à leur domaine".

Par exemple, ils disaient... ils posaient des questions sur un demandeur. Et la plupart des services d'orthophonie réguliers renvoyaient... au lieu de dire " demandeur ", ils parlaient de " Clémentine ", comme l'orange. Et évidemment, il devient alors très difficile de comprendre ce que l'utilisateur voulait réellement. Nous avons donc mené de nombreuses recherches dans notre entreprise sur ce que nous appelons la reconnaissance vocale personnalisée, qui s'apparente à la technologie vocale actuelle, mais où vous pouvez l'alimenter avec des tonnes de langage spécifique à un domaine afin qu'elle puisse être de plus en plus précise.

Et je pense que tous ces scénarios autour de la voiture ou... je ne vais pas redire Alexa au cas où elle apparaîtrait. Mais les systèmes de chat basés sur Amazon et d'autres choses sont tous basés sur des modèles de discours généralisés. Et je pense que si nous voulons que ces choses décollent vraiment, nous allons avoir besoin d'une compréhension du langage spécifique à un domaine dans ces systèmes également par application, peut-être, une compréhension du langage spécifique à un domaine.

"Si nous voulons que ces choses décollent vraiment, nous aurons besoin d'une compréhension du langage spécifique au domaine.

Sam : Oui. Donc la façon dont j'ai déployé le... l'appareil que vous déployez dans votre bureau pour, vous savez... et c'est peut-être même les différents assistants, n'est-ce pas ? Je peux penser, surtout avec la voix, que l'idée d'avoir cet appareil qui a Alexa dedans mais en fait, je pourrais vouloir avoir plusieurs différents... donc j'ai Alexa pourrait être la façon dont je gère ma maison. J'ai donc tout ce qui concerne la maison intelligente, les achats et les tâches domestiques dans cet appareil. Et puis j'ai un assistant complètement différent avec un nom différent qui gère mes affaires, appelé Moneypenny ou quelque chose comme ça.

C'est ce genre d'idée qui nous fait dire que je veux parler à cette personne et qui nous place dans un domaine. Tout comme nous ouvrons notre courriel professionnel ou notre courriel personnel, ou... les gens ont des personas différents, des chapeaux différents, n'est-ce pas ?

Martin : Je pense que l'un des défis de l'application Amazon pour le moment est que si vous parlez à cette application, en tant que développeur, vous n'avez pas accès à ce qu'ils ont dit, le fichier WAV. Et c'est la même chose avec notre implémentation de Cortana : vous n'avez pas accès à l'endroit où se trouve le fichier WAV. Vous devez donc vous fier à la conversion de la parole en texte.

La plupart des systèmes avancés de synthèse vocale doivent donc être intégrés dans les applications elles-mêmes plutôt que d'utiliser ces assistants vocaux. Je pense que c'est un défi que ces grands assistants vocaux ou assistants personnels vont devoir relever d'une manière ou d'une autre. Nous allons devoir donner aux développeurs l'accès aux fichiers WAV, à l'audio réel.

[Note de la rédaction : regarder la discussion d'une heure discussion complète d'une heure sur l'état de la technologie des robots d'intelligence artificielle].

Partager:

https://a.storyblok.com/f/270183/384x384/7fbbc7293b/sammachin.png
Sam MachinAnciens de Vonage