
Bots und KI: Voice vs. Text für Ihre KI-Bot-Schnittstelle
Lesedauer: 5 Minuten
Wie entscheiden Sie, ob Ihr KI-Bot ein Chatbot oder ein Voice-Bot sein soll? Der Kontext des Anwendungsfalls ist natürlich ein wichtiger Faktor, aber sollte er der <span style="font-style: italic;">the</span> ausschlaggebend sein oder sollten Sie den Nutzern beide Kanäle zur Verfügung stellen? Microsoft Technical Evangelist Martin Beeby, Syd Lawrence, CEO/Mitbegründer von The Bot Platform, und Oscar Merry, CTO/Mitbegründer von Opearlo, teilen ihre Gedanken aus der Praxis der Bot-Entwicklung.
Sehen Sie sich hier das Video unseres Gesprächs an, oder scrollen Sie unter dem Video, um die vollständige Abschrift zu lesen.
<youtube id="EG3fOTWlSDs"></youtube>
Sam Machin (Nexmo Developer Advocate & Alexa Champion): Voice versus Text. Wir haben gerade über einige der Vorteile von Text für Chatbots gesprochen und es gab auch etwas für Voice-Bots. Brauchen wir beides? Was sind die Vor- und Nachteile von beidem? Ist es ein Fall von "das Richtige für die richtige Situation"? Und sollten Dinge auf beiden Kanälen verfügbar sein? Gibt es Dinge, bei denen ich dem Benutzer genau das gleiche Erlebnis auf Voice und Text bieten möchte oder nicht?
Syd Lawrence (CEO/Mitbegründer von Die Bot-Plattform): Ich denke, einige der Beispiele, die Oscar vorhin genannt hat, wie Kochrezepte oder wenn man aus dem Auto kommt und die Hände mit Einkaufstüten gefüllt sind. Ich meine, das muss bei weitem Voice sein. Ohne den Schatten eines Zweifels. Ich denke, es gibt sicherlich noch andere Kontexte. Nun, manchmal braucht man einen Bildschirm für Feedback oder Informationen, wo Voice Probleme macht. Aber ja, der Kontext ist definitiv wichtig.
Oscar Merry (Mitbegründer & CTO bei Opearlo: Ja, ich denke, es ist auch wichtig, sich daran zu erinnern, dass Voice- und Text-Chat sehr, sehr unterschiedlich sind. Wir sehen viele Unternehmen, die vielleicht einen Chatbot für Facebook Messenger entwickelt haben und diesen dann auf Amazon Alexa übertragen wollen, weil sie denken, dass es ein sehr einfacher Prozess ist und wir ihn einfach portieren können. Und das funktioniert überhaupt nicht. Und das Gleiche gilt umgekehrt, wenn wir Unternehmen sehen, die eine Alexa-App haben und diese auf Facebook Messenger portieren wollen. Und dabei muss man wirklich vorsichtig sein, man muss an den Kontext denken, wie Syd sagte.
Ich würde sagen, dass ich denke, dass Menschen und Marken letztendlich sowohl auf Chat-Plattformen als auch auf Voice-Plattformen vertreten sein müssen, weil die Menschen diese Flexibilität haben wollen.
Eine Sache, über die wir viel sprechen, ist der Anwendungsfall Autofahren. Ford, BMW und VW haben angekündigt, dass sie Alexa in ihre neuen Automodelle integrieren werden. Und andere Autohersteller werden mit anderen digitalen Assistenten nachziehen. Und ich denke, dass das Autofahren in Zukunft ein wirklich großer Anwendungsfall für Voice sein wird. Man kann sich aber durchaus den Anwendungsfall vorstellen, dass man im Auto sitzt, zur Arbeit fährt und dort mit seinem digitalen Assistenten interagiert. Und wenn man dann aus dem Auto aussteigt und vielleicht die nächsten fünf Minuten ins Büro geht, setzt man das über Facebook Messenger fort. Ich denke also, dass man definitiv an beides denken muss, aber wie Syd schon sagte, sind sie sehr, sehr unterschiedlich und man muss an den Kontext denken.
"Ich denke, dass das Autofahren in Zukunft ein wirklich großer Anwendungsfall für Voice sein wird."
Martin Beeby (Technischer Evangelist bei Microsoft): Eine der Herausforderungen, die ich bei Voice sehe, ist, dass es bei der Entwicklung eines Voice-Systems manchmal unerwartete Probleme und Hürden gibt, die mit der derzeitigen Technologie nur schwer zu überwinden sind.
So haben wir zum Beispiel vor kurzem eine Anwendung mit einem Unternehmen namens Beezy. Dabei handelt es sich um eine Organisation, die versucht, Informationen von Unternehmen über ihr Geschäft zu extrahieren. Der Anwendungsfall ist also, dass der Benutzer in seinem Auto sitzt, sein iPhone benutzt und die Beezy-Anwendung verwendet. Er nimmt auf oder aktiviert Siri und fragt: "Haben wir schon einmal mit Shell gearbeitet?", also mit dem Ölkonzern oder was auch immer.
Und wir haben das ziemlich einfach hinbekommen, und es war ziemlich einfach, die Absicht herauszufinden und das Unternehmen Shell zu erkennen. Aber dann wurden Fragen gestellt wie: "Haben wir schon einmal mit einer Firma Misco gearbeitet?" Und Misco ist eigentlich kein sehr gebräuchliches Wort, das in der normalen englischen Sprache verwendet wird. Es ist sehr spezifisch für diesen Bereich oder jeden Firmennamen.
Die meisten Voice-Systeme sind also auf allgemeines Englisch trainiert. Sie werden nicht für bestimmte Unternehmen oder deren domänenspezifische Sprache trainiert. Ein weiteres Beispiel: Ich habe kürzlich an einem Voice Bot für Plexus Recht. Plexus Law verwendet in seinen Diktaten viel legalisiertes, juristisches Englisch.
"Die meisten Voice-Systeme sind auf allgemeines Englisch trainiert. Sie sind nicht auf bestimmte Unternehmen oder deren domänenspezifische Sprache trainiert."
Zum Beispiel sagten sie... sie fragten nach einem Antragsteller. Und die meisten der regulären Sprachdienste antworteten... anstatt "Antragsteller" zu sagen, sprachen sie von "Clementine", wie die Orange. Und das macht es natürlich sehr schwierig, zu verstehen, was der Nutzer eigentlich wollte. Deshalb haben wir in unserem Unternehmen viel über die so genannte benutzerdefinierte Spracherkennung geforscht, die der aktuellen Sprachtechnologie ähnelt, die man aber mit Unmengen von bereichsspezifischer Sprache füttern kann, damit sie immer genauer wird.
Und ich denke, all diese Szenarien im Auto oder... ich werde Alexa nicht noch einmal sagen, falls sie auftaucht. Aber die Amazon-basierten Chatsysteme und andere Dinge basieren alle auf verallgemeinerten Sprachmustern. Und ich denke, wenn wir wollen, dass sich diese Dinge wirklich durchsetzen, brauchen wir ein bereichsspezifisches Sprachverständnis in diesen Systemen, vielleicht auch pro App, ein bereichsspezifisches Sprachverständnis.
"Wenn wir wollen, dass sich diese Dinge wirklich durchsetzen, brauchen wir ein bereichsspezifisches Sprachverständnis".
Sam: Ja. Also die Art und Weise, wie ich das... das Gerät, das Sie in Ihrem Büro einsetzen, für, Sie wissen schon... und vielleicht sind es sogar die verschiedenen Assistenten, nicht wahr? Ich kann mir vorstellen, vor allem mit der Voice-Sache, dass die Idee, dass man dieses eine Gerät hat, das Alexa enthält, aber eigentlich möchte ich vielleicht mehrere verschiedene... also ich habe Alexa, wie ich mein Haus verwalte. Ich habe also mein ganzes Smart Home, meine Einkäufe und den ganzen Haushaltskram da drin. Und dann habe ich einen völlig anderen Assistenten mit einem anderen Namen, mit dem ich meine geschäftlichen Dinge erledige, ich nenne ihn Moneypenny oder so.
Und diese Art von Idee, dass wir sagen, ich will mit dem da reden, und das bringt uns dann in einen Bereich. Genauso wie wir unsere Arbeits-E-Mails oder unsere persönlichen E-Mails öffnen, oder... die Menschen haben verschiedene Persönlichkeiten, verschiedene Hüte, nicht wahr?
Martin: Ich denke, eine der Herausforderungen bei Amazon ist, dass man als Entwickler keinen Zugriff auf die WAV-Datei hat, wenn man mit ihr spricht. Und das Gleiche gilt für unsere Cortana-Implementierung: Man hat keinen Zugriff darauf, wo die WAV-Datei ist. Man muss sich also auf ihre Sprache in Text verlassen.
In den meisten Fällen, in denen wir fortschrittlichere Systeme für die Umwandlung von Sprache in Text einsetzen, müssen wir diese selbst in die Anwendungen integrieren, anstatt diese Sprachassistenten zu verwenden. Und ich denke, das ist eine Herausforderung, die diese großen Voice-Assistenten oder persönlichen Assistenten irgendwie bewältigen müssen. Wir müssen den Entwicklern Zugang zu den WAV-Dateien, zu den eigentlichen Audiodaten, geben.
[Anmerkung der Redaktion: Sehen Sie sich die komplette einstündige Diskussion über den Stand der KI-Bot-Technologie].