Transcripciones posteriores a la llamada

Precios

El precio de la transcripción, con o sin resumen, es de 0,04510 $ / 0,04100 € por minuto, independientemente del número de participantes. Solo se aplicarán tarifas de archivo individuales.

Resumen de funciones

La transcripción posterior a la llamada puede ayudar a mejorar el mantenimiento de registros, el servicio al cliente, la productividad y el análisis de datos. Los servidores de Video API de Vonage generan transcripciones posteriores a la llamada usando inteligencia artificial y otra tecnología de vanguardia.

Las transcripciones se activan al iniciar un archivo mediante la API REST.

Una vez finalizada la grabación del archivo, la transcripción estará disponible como archivo JSON.

Activar la transcripción al iniciar un archivo

Cuando utilices la API REST de Video de Vonage para iniciar un archivo, establece el parámetro hasAudio y hasTranscription propiedades a true en las propiedades JSON que envió al método REST de inicio de archivo:

Además, puede incluir un transcriptionProperties con un objeto hasSummary (booleano) y/o primaryLanguageCode (cadena). Al establecer hasSummary a verdadero, incluirá un resumen generado por la IA en la transcripción. Si se establece en falso o falta (el valor por defecto es false), no se incluirá el resumen de la transcripción. Si la transcripción es para otro idioma que no sea el "en-US" (por defecto), configure la propiedad primaryLanguageCode con un código de idioma admitido.

application_id="12345abc" json_web_token="jwt_string" # replace with a JSON web token data='{ "sessionId": "1_MX40NzY0MDA1MX5-fn4", "hasAudio": true, "hasVideo": true, "hasTranscription": true, "transcriptionProperties": { "hasSummary": true, "primaryLanguageCode": "ja-JP" }, "name": "archive_test", "outputMode": "individual" }' curl \ -i \ -H "Content-Type:application/json" \ -X POST \ -H "X-OPENTOK-AUTH:$json_web_token" \ -d "$data" \ https://video.api.vonage.com/v2/project/$application_id/archive

Establecer outputMode (en los datos POST) a "individual". Las transcripciones están disponibles para archivos de flujos individuales sólo.

Establezca el valor de application_id a su ID de aplicación. Establezca el valor de json_web_token a un token web JSON (véase la sección Autenticación de la API REST documentación).

Para otras opciones de archivo, consulte la documentación de la función iniciar método REST de archivo.

La respuesta a una llamada al método REST de inicio de archivo incluirá hasTranscription y transcription además de las otras propiedades documentadas de la respuesta:

{
  "createdAt" : 1384221730555,
  "duration" : 0,
  "hasAudio" : true,
  "hasVideo" : true,
  "id" : "b40ef09b-3811-4726-b508-e41a0f96c68f",
  "name" : "The archive name you supplied",
  "outputMode" : "individual",
  "applicationId" : "12345abc",
  "reason" : "",
  "resolution" : "640x480",
  "sessionId" : "flR1ZSBPY3QgMjkgMTI6MTM6MjMgUERUIDIwMTN",
  "size" : 0,
  "status" : "started",
  "streamMode" : "auto",
  "hasTranscription" : true,
  "transcription" : {
    "hasSummary": true,
    "primaryLanguageCode": "ja-JP",
    "reason": "",
    "status": "requested",
    "url": ""
  }
}

Véase Obtener el estado de la transcripción para obtener información sobre la obtención dinámica de los datos de transcripción.

En un sesión archivada automáticamentela transcripción no se iniciará automáticamente. Deberá iniciar un segundo archivo, utilizando la opción multiArchiveTag para la transcripción (véase Archivos simultáneos).

La compatibilidad con transcripciones está disponible actualmente con la API REST de Vonage Video y se puede habilitar y administrar a través de los SDK del servidor de Vonage.

Obtener el estado de la transcripción

La respuesta de los métodos REST para archivos de listados y recuperación de información de archivo incluirá hasTranscription y transcription propiedades:

{
    "id" : "b40ef09b-3811-4726-b508-e41a0f96c68f",
    "event": "archive",
    "createdAt" : 1723584124,
    "duration" : 328,
    "name" : "the archive name",
    "partnerId" : "123456abc",
    "reason" : "",
    "sessionId" : "2_MX40NzIwMzJ-flR1ZSBPERUIDIwMTN-MC45NDQ2MzE2NH4",
    "size" : 18023312,
    "status" : "uploaded",
    "hasTranscription" : true,
    "transcription": {
      "status": "available",
      "url": "URL for downloading the transcription, if available",
      "reason": "The reason for failure, if status is set to failed",
      "hasSummary": true,
      "primaryLanguageCode": "The configured language code"
    }
}

En hasTranscription es un booleano que indica si la transcripción está activada para el archivo.

En transcription un objeto con las siguientes propiedades:

  • status (Cadena) - El estado de la transcripción, que puede ser uno de los siguientes:

    • "requested" - La hasTranscription se estableció en true durante la llamada de inicio de archivo, pero la transcripción no ha comenzado.
    • "failed" - La transcripción ha fallado. Compruebe la reason para más información.
    • "started" - La transcripción está en curso.
    • "available" - La transcripción está disponible para su descarga en Vonage. Consulta el url propiedad.
    • "uploaded" - La transcripción está disponible para su descarga desde el bucket de S3 o el contenedor de Azure que especificó en su cuenta de Video API. Busque transcription.zip en la carpeta de ID de archivo de su destino de almacenamiento de archivos. Consulte Almacenamiento de archivos.
  • url (Cadena) - La dirección URL para descargar la transcripción, si la status se establece en "available".

  • reason (Cadena) - El motivo del fallo de transcripción, si el status se establece en "failed".

  • hasSummary (booleano) - Indica si se incluye en la transcripción un resumen generado por la IA.

  • primaryLanguageCode (Cadena) - El código de idioma configurado para la transcripción.

También puede establecer una devolución de llamada de estado de archivo para su cuenta de Video API. Véase Cambios en el estado del archivo. Los datos de devolución de llamada también incluirán hasTranscription y transcription propiedades.

Formato de transcripción

La transcripción se proporciona como un archivo ZIP comprimido. El archivo descomprimido es un archivo de texto con datos JSON.

La transcripción incluye segmentos individuales de texto. Cada segmento corresponde a un canal de audio individual (de uno de los flujos de audio de la sesión).

El JSON tiene las siguientes propiedades de nivel superior:

  • job_id - Un identificador único para la transcripción.

  • timestamp - Una cadena de fecha ISO 8601 para indicar cuándo se creó el archivo de transcripción.

  • number_of_channels - Número de canales de audio individuales del archivo incluidos en la transcripción.

  • reliability - Un objeto con una propiedad: score. En score es un número que indica la fiabilidad global estimada de la transcripción (de 0 a 1,0).

  • summary - Si ajusta el hasSummary propiedad del transcriptionProperties objeto a true al iniciar el archivo, se incluye esta propiedad. Se establece en un resumen de la transcripción generado por la IA.

  • confidence - Un objeto con dos propiedades: overall y channels. En overall es la confianza estimada de toda la transcripción (de 0 a 1,0). La dirección channels es una matriz que enumera la confianza estimada de cada canal en la transcripción.

  • channels_metadata - Una matriz de objetos que definen cada canal de audio. Cada objeto an id que es el ID del flujo de vídeo. Puede añadir datos identificativos de la conexión cuando crear un token de cliente para cada usuario. Puede utilizar llamadas de retorno para monitorizar la sesión para obtener los ID de los flujos y los datos de conexión de cada uno de ellos. A continuación, puede utilizarlos para identificar al usuario del flujo en la transcripción.

  • segments - Objeto que contiene segmentos individuales de la transcripción. Cada objeto segmento tiene las siguientes propiedades:

    • text - El texto transcrito del segmento.

    • formatted - El texto formateado (con puntuación) del segmento.

    • confidence - Un número, de 0 a 1,0, que representa la confianza estimada de la transcripción del segmento.

    • channel - El número entero que identifica el canal de audio para el segmento.

  • raw_data - Una matriz de objetos para cada palabra del segmento de transcripción. Cada objeto incluye las siguientes propiedades:

    • word - La palabra.

    • confidence - Un número, de 0 a 1,0, que representa la confianza estimada de la palabra transcrita.

    • start_ms - Desplazamiento del inicio de la palabra desde el inicio de la transcripción, en milisegundos.

    • end_ms - Desplazamiento del final de la palabra desde el inicio de la transcripción, en milisegundos.

The output of a transcription JSON file.

Descargar transcripciones

Hay dos formas de descargar el archivo de transcripción de un archivo: a través de la API REST o a través del panel de control para desarrolladores.

Descarga a través de la API REST

Puede descargar el archivo de transcripción de un archivo específico llamando a la función Recuperar información de archivo Método REST y comprobando el transcription.url en la respuesta. Si la propiedad transcription.status se establece en "available" o "uploaded"El transcription.url contiene una URL para descargar el archivo de transcripción.

Utilice una solicitud HTTP GET para descargar el archivo de transcripción de la URL. Por ejemplo

transcription_url="https://example.com/path/to/transcription.zip" # replace with the transcription URL curl -o transcription.zip $transcription_url

Descarga a través del panel de control para desarrolladores

Puede descargar la transcripción de una llamada específica si el almacenamiento alternativo siguiendo estos pasos:

  1. Abra el panel de control del desarrollador y vaya a Registros de vídeo.
  2. Seleccione una aplicación de la lista de aplicaciones y haga clic en busque en. Opcionalmente Puede proporcionar ID de grabación o ID de sesión para acotar los resultados.
  3. En la lista de resultados, localice la sesión correspondiente.
  4. Pase el ratón por encima de Estado de esa sesión y haga clic en el botón Descargar transcripción botón.
Download transcriptions

Limitaciones/problemas conocidos

  • Las transcripciones sólo están disponibles para los archivos de flujos individuales, no para los archivos compuestos.

  • Las transcripciones no son compatibles con los archivos encriptados.

  • Esta función actualmente es compatible con la API REST de Vonage Video, no con los SDK del servidor de Vonage Video.

  • La duración máxima de una transcripción es de 120 minutos.

  • La transcripción posterior a la llamada no cumple todos los Zonas regionales de medios de comunicación (véase más abajo).

Regional Media Zone Support Available
USA Yes
EU Yes
Canada Based on requirement
Germany Based on requirement
Australia Based on requirement
Japan Based on requirement
South Korea Based on requirement
Singapore Based on requirement

Preguntas frecuentes

  • ¿Cuántos flujos pueden analizarse en una misma sesión?
    • Hasta 50 secuencias con un máximo de 120 minutos transcritos.
  • ¿Funciona la transcripción posterior a la llamada tanto con sesiones enrutadas como retransmitidas?
    • La función de transcripciones posteriores a la llamada está destinada a las sesiones enrutadas que utilizan los servidores de medios de Vonage.
  • Si falla la carga de transcripciones al bucket S3 configurado por el cliente, ¿funciona el mecanismo de reintento o de reserva de forma similar a la carga de archivos?
    • Sí, el mecanismo de reintento para PCT funciona exactamente igual que para las cargas de archivos normales.
  • En los casos en que la transcripción retrocede y se carga en la nube de Vonage, ¿necesitará el cliente utilizar una solicitud HTTP GET para obtener el enlace de descarga de la transcripción?
    • Cuando cambia el estado de la transcripción, el cliente debe recibir una devolución de llamada que incluya la URL de descarga. Si no se registra ninguna devolución de llamada, el enlace de descarga solo podrá recuperarse mediante una solicitud HTTP GET.
  • Una vez recibido el enlace de descarga de la transcripción, permite una descarga directa. Está previsto introducir la autenticación para descargar la transcripción?
    • No está previsto introducir autenticación para el enlace. El enlace de descarga tiene una breve ventana de caducidad. Si no se accede a él dentro de ese plazo, deberá hacerse una nueva solicitud para obtener un nuevo enlace.
  • Aunque varios usuarios se hayan unido a la sesión, el archivo de transcripción es un único archivo JSON. Cómo diferenciamos a los usuarios?
    • Cada entrada de transcripción del archivo está asociada a un número de canal específico, asignado a cada flujo. El fichero también incluye channels_metadataque proporciona información de ID de flujo correspondiente a cada ID de canal.

Idiomas admitidos

Idioma Código
Afrikaans (Sudáfrica) af-ZA
Amárico (Etiopía) am-ET
Árabe (Emiratos Árabes Unidos) ar-AE
Árabe (Bahréin) ar-BH
Árabe (Argelia) ar-DZ
Árabe (Egipto) ar-EG
Árabe (Israel) ar-IL
Árabe (Irak) ar-IQ
Árabe (Jordania) ar-JO
Árabe (Kuwait) ar-KW
Árabe (Líbano) ar-LB
Árabe (Marruecos) ar-MA
Árabe (Mauritania) ar-MR
Árabe (Omán) ar-OM
Árabe (Territorios Palestinos) ar-PS
Árabe (Qatar) ar-QA
Árabe (Arabia Saudí) ar-SA
Árabe (Siria) ar-SY
Árabe (Túnez) ar-TN
Árabe (Yemen) ar-YE
Azerbaiyano (Azerbaiyán) az-AZ
Búlgaro (Bulgaria) bg-BG
Bengalí (Bangladesh) bn-BD
Bengalí (India) bn-IN
Bosnio (Bosnia y Herzegovina) bs-BA
Catalán (España) ca-ES
Checa (República Checa) cs-CZ
Danés (Dinamarca) da-DK
Alemán (Austria) de-AT
Alemán (Suiza) de-CH
Alemán (Alemania) de-DE
Griego (Grecia) el-GR
Inglés (Australia) es-AU
Inglés (Canadá) es-CA
Inglés (Reino Unido) es-GB
Inglés (Ghana) es-GH
Inglés (Hong Kong) es-HK
Inglés (Irlanda) es-IE
Inglés (India) es-IN
Inglés (Kenia) es-KE
Inglés (Nigeria) es-NG
Inglés (Nueva Zelanda) es-NZ
Inglés (Filipinas) es-PH
Inglés (Pakistán) es-PK
Inglés (Singapur) es-SG
Inglés (Tanzania) es-TZ
Inglés (Estados Unidos) es-US
Inglés (Sudáfrica) es-ZA
Español (Argentina) es-AR
Español (Bolivia) es-BO
Español (Chile) es-CL
Español (Colombia) es-CO
Español (Costa Rica) es-CR
Español (República Dominicana) es-DO
Español (Ecuador) es-EC
Español (España) es-ES
Español (Guatemala) es-GT
Español (Honduras) es-HN
Español (México) es-MX
Español (Nicaragua) es-NI
Español (Panamá) es-PA
Español (Perú) es-PE
Español (Puerto Rico) es-PR
Español (Paraguay) es-PY
Español (El Salvador) es-SV
Español (Estados Unidos) es-US
Español (Uruguay) es-UY
Español (Venezuela) es-VE
Estonio (Estonia) et-EE
Euskera (España) eu-ES
Persa (Irán) fa-IR
Finlandés (Finlandia) fi-FI
Francés (Bélgica) fr-BE
Francés (Canadá) fr-CA
Francés (Suiza) fr-CH
Francés (Francia) fr-FR
Gallego (España) gl-ES
Gujarati (India) gu-IN
Hindi (India) hi-IN
Croata (Croacia) hr-HR
Húngaro (Hungría) hu-HU
Armenio (Armenia) hy-AM
Indonesio (Indonesia) id-ID
Islandés (Islandia) is-IS
Italiano (Suiza) it-CH
Italiano (Italia) it-IT
Hebreo (Israel) iw-IL
Japonés (Japón) ja-JP
Javanés (Indonesia) jv-ID
Georgiano (Georgia) ka-GE
Kazajo (Kazajstán) kk-KZ
Jemer (Camboya) km-KH
Kannada (India) kn-IN
Coreano (Corea del Sur) ko-KR
Lao (Laos) lo-LA
Lituano (Lituania) lt-LT
Letón (Letonia) lv-LV
Macedonio (Macedonia del Norte) mk-MK
Malayalam (India) ml-IN
Mongol (Mongolia) mn-MN
Marathi (India) mr-IN
Malayo (Malasia) ms-MY
Birmano (Myanmar) mi-MM
Nepalí (Nepal) ne-NP
Neerlandés (Bélgica) nl-BE
Neerlandés (Países Bajos) nl-NL
Noruego (Noruega) no-NO
Polaco (Polonia) pl-PL
Portugués (Brasil) pt-BR
Portugués (Portugal) pt-PT
Rumano (Rumanía) ro-RO
Ruso (Rusia) ru-RU
Kinyarwanda (Ruanda) rw-RW
Cingalés (Sri Lanka) si-LK
Eslovaco (Eslovaquia) sk-SK
Esloveno (Eslovenia) sl-SI
Albanés (Albania) sq-AL
Serbio (Serbia) sr-RS
Sotho meridional (Sudáfrica) st-ZA
Sundanés (Indonesia) su-ID
Sueco (Suecia) sv-SE
Suajili (Kenia) sw-KE
Suajili (Tanzania) sw-TZ
Tamil (India) ta-IN
Tamil (Sri Lanka) ta-LK
Tamil (Malasia) ta-MY
Tamil (Singapur) ta-SG
Telugu (India) te-IN
Tailandés (Tailandia) th-TH
Turco (Turquía) tr-TR
Tsonga (Sudáfrica) ts-ZA
Ucraniano (Ucrania) uk-UA
Urdu (India) ur-IN
Urdu (Pakistán) ur-PK
Uzbeko (Uzbekistán) uz-UZ
Venda (Sudáfrica) ve-ZA
Vietnamita (Vietnam) vi-VN
Xhosa (Sudáfrica) xh-ZA
Zulú (Sudáfrica) zu-ZA