opción
Hogar
Última hora
Contenido
BruceSmith
BruceSmith
24 de marzo de 2026

Alibaba presenta PrismAudio, un nuevo marco de trabajo de vídeo a audio que genera sonido ambiental sincronizado y de alta calidad para vídeos. Aceptado en ICLR 2026, utiliza un proceso de «cadena de pensamiento» para el análisis y un sistema de puntuación con múltiples modelos de referencia. Este modelo ligero, con 518 millones de parámetros, puede generar el audio de un vídeo de 9 segundos en 0,63 segundos.

Alibaba presenta PrismAudio, un nuevo marco de trabajo de vídeo a audio que genera sonido ambiental sincronizado y de alta calidad para vídeos. Aceptado en ICLR 2026, utiliza un proceso de «cadena de pensamiento» para el análisis y un sistema de puntuación con múltiples modelos de referencia. Este modelo ligero, con 518 millones de parámetros, puede generar el audio de un vídeo de 9 segundos en 0,63 segundos.
comentario (0)
0/300
OR