Funciones y soluciones de IA de la Video API de Vonage

Vonage Video ofrece API y SDK que permiten acceder a las transmisiones de video y audio de una sesión de video en vivo y modificar estas transmisiones usando herramientas de IA de Vonage y de terceros y otros servicios.

Estas modificaciones se pueden realizar en tiempo real dentro de una sesión de video de Vonage en curso. Esto significa que los miembros de la sesión pueden experimentar las modificaciones a medida que ocurren.

Mejore las Video Applications con IA

En Procesador multimedia de Vonage proporciona acceso a los flujos de audio y vídeo sin procesar a través de los SDK de cliente de vídeo para realizar operaciones de transformación en pistas de vídeo y audio individuales. Esto te permite modificar los flujos de audio o vídeo con Vonage o canalizarlos a través de servicios de terceros para realizar las modificaciones que desees.

La API de subtítulos en directo permite transcribir secuencias de audio para subtítulos en tiempo real dentro de la sesión de vídeo. El servicio se utiliza para proporcionar transcripciones instantáneas para casos de uso de reconocimiento automático del habla (ASR) y conversión de voz a texto (STT), como subtítulos en pantalla, transcripciones y traducciones.

Video and AI Topology

Del mismo modo, el Conector de audio proporciona acceso al audio sin procesar de una sesión de vídeo de Vonage a través de una interfaz websocket, que luego puedes enviar a tus propios servicios gestionados de IA, como Servicio de voz Azure AI de Microsoft.

La transcripción posterior a la llamada en sesiones de vídeo proporciona transcripciones y resúmenes basados en un archivo grabado. Esto es útil para notas de reuniones, resúmenes de reuniones y casos de uso de cumplimiento.

Hemos recopilado una variedad de casos de uso junto con las características y el código de ejemplo que pueden ayudarle a empezar. También puede consultar la Recursos relacionados a continuación para empezar o eche un vistazo a esta tabla para ver cuál de nuestras funciones puede ser la mejor para usted.

Quiero... Nombre de la función Referencias de código (documentación, ejemplos, procedimientos)
DISCURSO A TEXTO
Grabar mi reunión con una transcripción Transcripción posterior a la llamada Documentación, Aplicación de muestra, Webinar
Resumen de mi reunión Transcripción posterior a la llamada con resumen Documentación, Aplicación de muestra
Añadir subtítulos a mis reuniones Subtítulos en directo Documentación, Aplicación de muestra, Webinar
Captura de notas en tiempo real Subtítulos en directo Documentación
Traducir usuarios a otro idioma (texto) Conector de audio Blog Artículo
Audio de usuario moderado Señalización, silencio del editor Blog Artículo
TRATAMIENTO BÁSICO DE LOS MEDIOS DE COMUNICACIÓN
Difuminar fondo de vídeo (Web) Desenfoque de fondo Desenfoque/sustitución del fondo, Aplicación de muestra
Desenfocar fondo de vídeo (Nativo) API para procesadores multimedia Documentación
Sustituir fondo de vídeo (Web) Sustitución de fondo Desenfoque/sustitución del fondo
Sustituir fondo de vídeo (Nativo) API para procesadores multimedia Documentación
Añadir marcas de agua a los flujos API para procesadores multimedia Marcas de agua y códigos QR
Añadir códigos QR API para procesadores multimedia Marcas de agua y códigos QR
Eliminar el ruido de fondo Supresión del ruido Supresión del ruido
Modular audio con efectos API para procesadores multimedia
VISIÓN POR ORDENADOR
Observa cuando alguien levanta la mano API para procesadores multimedia Blog Artículo
Detectar cuando alguien mira fuera de la pantalla API para procesadores multimedia Blog Artículo
Ver objetos en el encuadre API para procesadores multimedia Análisis de imágenes
BOTS Y AGENTIC AI
Obtenga en tiempo real el sentimiento de la persona que llama Conector de audio Análisis del sentimiento
Chatbot tradicional Conector de audio
Traducir automáticamente la voz del usuario a otro idioma Conector de audio
Construir un canal de IA (STT→LLM/Agente de IA → TTS) Conector de audio Aplicación de muestra
Voz a voz AI Procesamiento de agentes Conector de audio
Reproducir un anuncio de voz AI en una sesión de vídeo Conector de audio

Recursos relacionados

  • Procesador multimedia: Descubre cómo capturar y modificar secuencias de vídeo.
  • Conector de audio: Aprende a acceder al audio sin procesar de las sesiones de vídeo en directo de Vonage y a modificarlo.
  • Entradas de blog: Mira tutoriales de ejemplo sobre cómo se pueden mejorar las sesiones de video en vivo de Vonage usando IA.