Hogar
Alibaba Tongyi presenta un modelo de voz con control de lenguaje natural «FreeStyle».
Hoy, el equipo de voz de Alibaba Tongyi Lab ha presentado dos modelos revolucionarios de generación de voz: Fun-CosyVoice3.5 y Fun-AudioGen-VD. La característica más destacada de estos modelos es su compatibilidad con los comandos «FreeStyle». En lugar de realizar ajustes complejos en los parámetros, los usuarios pueden controlar con precisión los estilos de expresión vocal o crear escenas de audio complejas desde cero utilizando descripciones sencillas en lenguaje natural.

Cada modelo tiene una finalidad distinta:
Fun-CosyVoice3.5: replicación multilingüe y control preciso
Esta versión mejorada de CosyVoice logra avances fundamentales en la comprensión de los matices de la expresión vocal.
Generación basada en comandos: los usuarios pueden introducir instrucciones como «habla con más confianza» o «reduce la velocidad con variaciones emocionales» para realizar ajustes vocales en tiempo real.
Ampliación del idioma: se ha añadido compatibilidad con tailandés, indonesio, portugués y vietnamita, lo que mantiene un rendimiento líder en el sector en cuanto a precisión de transcripción (WER) y similitud de voz en 13 idiomas.
Optimización de caracteres poco comunes: el entrenamiento especializado redujo las tasas de error de los caracteres poco comunes del 15,2 % al 5,3 %.
Aumento del rendimiento: la latencia del primer paquete se ha reducido en un 35 %, lo que mejora significativamente la fluidez de la interacción en tiempo real.
Fun-AudioGen-VD: diseño de sonido integral
Este modelo actúa como un «director de audio», generando audio integrado que combina «personajes + entornos».
Personalización de la voz: especifique el género, la edad, el acento y características detalladas como voces «roncas, graves o agudas».
Emociones y juego de roles: simula roles como agentes de atención al cliente, locutores y niños, e incluso transmite estados complejos como «calma exterior con tensión interior».
Entornos inmersivos: añade sonidos de fondo (caos en el campo de batalla, murmullos en una cafetería) y efectos espaciales (reverberación en una catedral, acústica submarina) para una simulación espacial completa.
Tongyi Lab señala que estos modelos democratizarán la creación de voces de alta calidad, ofreciendo un potente soporte de IA para la creación de podcasts, el desarrollo de videojuegos y la posproducción cinematográfica.
Artículo relacionado
Informe del cuarto trimestre del ejercicio fiscal 2026 de Alibaba: se disparan los ingresos por IA y los ingresos recurrentes anuales (ARR) de la plataforma BaiLian superan los 10 000 millones de yuanes
El Grupo Alibaba ha publicado hoy sus resultados financieros del cuarto trimestre y del ejercicio 2026, que indican que su negocio de nube impulsado por la inteligencia artificial está experimentando
Elon Musk pierde la demanda contra Sam Altman y OpenAI
La afirmación de Elon Musk de que los cofundadores de OpenAI lo habían agraviado se desvaneció cuando nueve miembros del jurado de California decidieron por unanimidad que sus demandas se presentaron demasiado tarde.Musk acusó a Sam Altman, Greg Bro
Indica el título del artículo para que lo reformulemos en forma de pregunta.
En el panorama digital actual, la inteligencia artificial está transformando todos los sectores, y el mundo de los blogs no es una excepción. Los blogueros buscan constantemente formas de optimizar su
Recomendaciones de temas especiales relacionados
comentario (0)
0/500
Hoy, el equipo de voz de Alibaba Tongyi Lab ha presentado dos modelos revolucionarios de generación de voz: Fun-CosyVoice3.5 y Fun-AudioGen-VD. La característica más destacada de estos modelos es su compatibilidad con los comandos «FreeStyle». En lugar de realizar ajustes complejos en los parámetros, los usuarios pueden controlar con precisión los estilos de expresión vocal o crear escenas de audio complejas desde cero utilizando descripciones sencillas en lenguaje natural.

Cada modelo tiene una finalidad distinta:
Fun-CosyVoice3.5: replicación multilingüe y control preciso
Esta versión mejorada de CosyVoice logra avances fundamentales en la comprensión de los matices de la expresión vocal.
Generación basada en comandos: los usuarios pueden introducir instrucciones como «habla con más confianza» o «reduce la velocidad con variaciones emocionales» para realizar ajustes vocales en tiempo real.
Ampliación del idioma: se ha añadido compatibilidad con tailandés, indonesio, portugués y vietnamita, lo que mantiene un rendimiento líder en el sector en cuanto a precisión de transcripción (WER) y similitud de voz en 13 idiomas.
Optimización de caracteres poco comunes: el entrenamiento especializado redujo las tasas de error de los caracteres poco comunes del 15,2 % al 5,3 %.
Aumento del rendimiento: la latencia del primer paquete se ha reducido en un 35 %, lo que mejora significativamente la fluidez de la interacción en tiempo real.
Fun-AudioGen-VD: diseño de sonido integral
Este modelo actúa como un «director de audio», generando audio integrado que combina «personajes + entornos».
Personalización de la voz: especifique el género, la edad, el acento y características detalladas como voces «roncas, graves o agudas».
Emociones y juego de roles: simula roles como agentes de atención al cliente, locutores y niños, e incluso transmite estados complejos como «calma exterior con tensión interior».
Entornos inmersivos: añade sonidos de fondo (caos en el campo de batalla, murmullos en una cafetería) y efectos espaciales (reverberación en una catedral, acústica submarina) para una simulación espacial completa.
Tongyi Lab señala que estos modelos democratizarán la creación de voces de alta calidad, ofreciendo un potente soporte de IA para la creación de podcasts, el desarrollo de videojuegos y la posproducción cinematográfica.
Informe del cuarto trimestre del ejercicio fiscal 2026 de Alibaba: se disparan los ingresos por IA y los ingresos recurrentes anuales (ARR) de la plataforma BaiLian superan los 10 000 millones de yuanes
El Grupo Alibaba ha publicado hoy sus resultados financieros del cuarto trimestre y del ejercicio 2026, que indican que su negocio de nube impulsado por la inteligencia artificial está experimentando
Elon Musk pierde la demanda contra Sam Altman y OpenAI
La afirmación de Elon Musk de que los cofundadores de OpenAI lo habían agraviado se desvaneció cuando nueve miembros del jurado de California decidieron por unanimidad que sus demandas se presentaron demasiado tarde.Musk acusó a Sam Altman, Greg Bro
Indica el título del artículo para que lo reformulemos en forma de pregunta.
En el panorama digital actual, la inteligencia artificial está transformando todos los sectores, y el mundo de los blogs no es una excepción. Los blogueros buscan constantemente formas de optimizar su











