https://d226lax1qjow5r.cloudfront.net/blog/blogposts/voice-api-speech-recognition-now-in-general-availability/blog_speech-recognition_1120_1200x600.png

Teilen Sie:

Victor ShisterovVoice API Produktmanager

Victor ist Produktmanager für Vonage Voice API mit sieben Jahren Erfahrung in der Telekommunikationsbranche und Softwareentwickler seit seiner Kindheit. Seine Leidenschaft ist es, technisch komplexe Dinge einfach zu verstehen und zu nutzen, indem er leistungsstarke APIs selbstbeschreibend und konsistent hält. Wenn er nicht gerade erfindet und programmiert, baut er maßstabsgetreue Modelle und spielt Volksmusikinstrumente.

Voice API-Spracherkennung jetzt allgemein verfügbar

Zuletzt aktualisiert am November 20, 2020

#voice-api

#asr

Lesedauer: 1 Minute

Wir freuen uns, Ihnen mitteilen zu können, dass Spracherkennungs-Software (ASR) jetzt allgemein verfügbar ist! Hier finden Sie eine Zusammenfassung der Verbesserungen, die wir während der Beta-Phase aufgrund von wertvollem Feedback vorgenommen haben:

Anruf-ID ist jetzt optional

Anders als bei der DTMF-Eingabe werden Anrufe (auch bekannt als Bein) ID ein obligatorischer Parameter für ASR. Das war etwas unpraktisch, da man die NCCO dynamisch im laufenden Betrieb aufbauen musste.

Jetzt ist der uuid ist nun optional, wobei der erste Teil des Anrufs der Standard ist, was für die meisten ASR-Anwendungsfälle wie IVR oder Voice-Bots gilt. Diese Anwendungsfälle haben in der Regel einen einzigen Teil des Anrufs, entweder eingehend vom PSTN zur Anwendung oder ausgehend von der Anwendung zur PSTN-Telefonnummer.

Sie können das Bein immer noch explizit angeben, was in komplexeren Szenarien nützlich sein kann.

Eingabetyp als Parameter

Zur Konfiguration der input Aktion so zu konfigurieren, dass nur DTMF-Töne, nur Sprache oder beides akzeptiert wird, mussten Sie bisher dtmf und/oder speech Objekte angeben, auch wenn Sie keine benutzerdefinierten Einstellungen für eines dieser Objekte vornehmen wollten. Der Standardfall erforderte also, dass Sie die input Aktion auf folgende Weise dargestellt:

[
  {
      "action": "input",
      "dtmf": { 
      },
      "speech": {
          "uuid": "0a41d330-853b-4294-8cbb-69e8e65dc9d4"
      }
  }
]

Wir haben einen neuen Parameter namens typeeingeführt, mit dem Sie explizit festlegen können, welche Art von Eingabeaktion Sie wünschen: [ "dtmf" ], [ "speech" ] oder [ "dtmf", "speech" ] im Falle von beidem. Wenn man bedenkt, dass der Parameter uuid für Sprache nun optional ist, sieht das NCCO-Objekt sowohl für DTMF als auch für ASR aktiviert nun so aus:

[
  {
      "action": "input",
      "type": [ "dtmf", "speech" ]
  }
]

Sie können die benutzerdefinierten DTMF/ASR-Parameter wie bisher mit dtmf/speech Objekten einrichten. Aus Gründen der Abwärtskompatibilität wird der bisherige Ansatz des Standard-DTMF-Eingabeszenarios weiterhin unterstützt.

Vollständige SDK-Unterstützung

Alle verfügbaren Server-SDKs unterstützen jetzt ASR.

Mit diesen Verbesserungen ist es ganz einfach, Ihre DTMF-IVR in einen Sprachassistenten mit natürlicher Sprache umzuwandeln oder einen solchen von Grund auf zu erstellen. Sehen Sie sich unseren ASR-Anleitung, NCCO-Referenzund Voice-Bot-Anleitung um mehr zu erfahren.

Wir hören nie auf, unsere API und die Plattform zu verbessern und zu erweitern. Wir freuen uns also auf weiteres Feedback und Ihre unglaublichen Apps!

Teilen Sie:

Victor ShisterovVoice API Produktmanager