opción
Hogar
Noticias
El modelo TTS de código abierto OmniVoice de Xiaomi permite la clonación sin entrenamiento previo en más de 600 idiomas

El modelo TTS de código abierto OmniVoice de Xiaomi permite la clonación sin entrenamiento previo en más de 600 idiomas

8 de mayo de 2026
91

Recientemente, el equipo de Kaldi de última generación (k2-fsa) de Xiaomi ha publicado oficialmente en código abierto OmniVoice, un modelo multilingüe de síntesis de voz sin entrenamiento previo (zero-shot) a gran escala que admite más de 600 idiomas. Este modelo alcanza resultados de vanguardia en múltiples pruebas comparativas clave para la síntesis en chino, inglés y en varios idiomas, lo que supone un avance significativo en este campo.

Rendimiento líder: WER en chino de tan solo el 0,84 %, superando a los modelos convencionales en pruebas multilingües

En el conjunto de pruebas Seed-TTS en chino, OmniVoice alcanza una tasa de error de palabras (WER) notablemente baja, de tan solo el 0,84 %. En las evaluaciones multilingües, sus puntuaciones de similitud (SIM-o) y WER superan a las de modelos comerciales muy conocidos como ElevenLabs v2 y MiniMax, lo que demuestra una naturalidad y claridad del habla excepcionales.

image.png

Inferencia ultrarrápida: RTF de tan solo 0,025, 40 veces más rápido que el tiempo real

OmniVoice cuenta con un factor de tiempo real (RTF) de tan solo 0,025, lo que significa que su velocidad de síntesis supera con creces los requisitos de tiempo real. Esta enorme ganancia en eficiencia permite la generación rápida de discurso de formato largo en aplicaciones prácticas, mejorando considerablemente la experiencia del usuario.

Innovación arquitectónica fundamental: diseño discreto no autorregresivo inspirado en modelos de difusión

OmniVoice emplea una novedosa arquitectura discreta no autorregresiva inspirada en los modelos de lenguaje de difusión. Genera voz a partir de texto en un solo paso, sin pasar por los tokens semánticos intermedios tradicionales. Este diseño optimizado simplifica el proceso de trabajo al tiempo que mantiene una alta calidad de salida. Una estrategia de enmascaramiento aleatorio del libro de códigos completo, combinada con la inicialización de un LLM preentrenado, aumenta aún más la eficiencia del entrenamiento y mejora la claridad y la inteligibilidad del discurso final.

Clonación y personalización flexible de la voz: funciona con solo 3-10 segundos de audio

El modelo admite la clonación de voz de alta calidad sin entrenamiento previo utilizando solo entre 3 y 10 segundos de audio de referencia. Los usuarios también pueden personalizar los atributos de la voz mediante indicaciones en lenguaje natural, especificando el género, la edad, el tono, el acento, el dialecto e incluso efectos especiales como el susurro.

Gestiona símbolos no lingüísticos y control de pronunciación detallado

OmniVoice puede procesar símbolos no lingüísticos, como [risas], y admite la corrección de la pronunciación mediante pinyin o símbolos fonéticos. Esto lo hace especialmente adecuado para la síntesis precisa en chino y diversos dialectos.

Compatibilidad con más de 600 idiomas: contribuyendo a la preservación digital de lenguas minoritarias y en peligro de extinción

Una de las principales características de OmniVoice es su amplia cobertura lingüística, que admite de manera eficiente tanto los idiomas principales como numerosos idiomas con pocos recursos. En el caso de las lenguas minoritarias y en peligro de extinción, puede generar voz de alta calidad con muestras de datos mínimas, lo que ofrece un potencial significativo para la preservación digital de las lenguas y la protección cultural.

El código y los modelos preentrenados de OmniVoice son ahora de código abierto en GitHub y Hugging Face, lo que permite a los desarrolladores implementarlo localmente o integrarlo en aplicaciones. AIbase seguirá supervisando los comentarios de la comunidad y los casos de uso en el mundo real. Se anima a los desarrolladores a compartir sus experiencias.

Enlace al proyecto: https://github.com/k2-fsa/OmniVoice

Artículo relacionado
Reliance da a conocer un plan de inversión en inteligencia artificial de 110 000 millones de dólares, mientras la India acelera su impulso tecnológico Reliance da a conocer un plan de inversión en inteligencia artificial de 110 000 millones de dólares, mientras la India acelera su impulso tecnológico Mukesh Ambani, el multimillonario presidente del conglomerado indio Reliance, anunció el jueves un plan de 10 billones de rupias (aproximadamente 110 000 millones de dólares) para construir infraestru
Zhiyuan WITA pone fin a la interacción «desnuda» con robots con la presentación de su primera declaración de cumplimiento Zhiyuan WITA pone fin a la interacción «desnuda» con robots con la presentación de su primera declaración de cumplimiento El sector de la inteligencia incorporada ha alcanzado un hito significativo. Según el último comunicado de la Administración del Ciberespacio de Shanghái, el modelo a gran escala WITA, desarrollado po
Un estudio antropológico relaciona el contenido generado por IA con una disminución del pensamiento humano Un estudio antropológico relaciona el contenido generado por IA con una disminución del pensamiento humano Cuando ves que la IA genera al instante un código o un documento bien estructurado y lógicamente claro, ¿te sientes tentado a confiar en él sin pensarlo dos veces? Según AIbase, la empresa líder en IA
Recomendaciones de temas especiales relacionados
Creación de animación Generador de anime AI para Donghua: Crea personajes para novelas web y avatares para cómics
Generador de anime AI para Donghua: Crea personajes para novelas web y avatares para cómics

Descubra los mejores generadores de anime de IA para donghua en 2026. Nuestra lista seleccionada y calificada incluye herramientas poderosas para crear increíbles personajes para novelas web y avatares de cómics. Compare opciones gratuitas y pagadas a través de pruebas reales. Encuentre su compañero creativo ideal y dé vida a sus historias hoy mismo en XIX.AI.

10 herramientas
xix.ai
Creación de cómics Las mejores herramientas de coloración automática con IA para manga: aplica colores planos sin ningún error de coherencia
Las mejores herramientas de coloración automática con IA para manga: aplica colores planos sin ningún error de coherencia

Descubre las mejores herramientas de coloración automática con IA para manga de 2026 en XIX.AI. Nuestra lista seleccionada incluye soluciones revolucionarias y mejor valoradas que aplican colores planos sin ningún error de consistencia, lo que potencia tu productividad. Explora comparativas entre opciones gratuitas y de pago, pruebas en condiciones reales y clasificaciones actualizadas semanalmente para encontrar la opción perfecta para ti. Aprovecha hoy mismo las ventajas de la IA.

10 herramientas
xix.ai
escribiendo Los mejores creadores de perfiles de ficción con IA: cómo generar motivaciones y defectos fatales coherentes para los personajes
Los mejores creadores de perfiles de ficción con IA: cómo generar motivaciones y defectos fatales coherentes para los personajes

Descubre los mejores creadores de perfiles de ficción con IA de 2026 para dar vida a personajes profundos. La selección de XIX.AI incluye herramientas de primera categoría y revolucionarias que generan motivaciones coherentes y defectos fatales. Compara las opciones gratuitas con las de pago mediante pruebas en el mundo real. Libera ahora tu potencial narrativo.

10 herramientas
xix.ai
Negocio El mejor software de optimización de precios con IA: realiza un seguimiento de la competencia y ajusta automáticamente los precios de la tienda
El mejor software de optimización de precios con IA: realiza un seguimiento de la competencia y ajusta automáticamente los precios de la tienda

Descubre el mejor software de optimización de precios con IA de 2026 en XIX.AI. Nuestra selección incluye herramientas de primera categoría y revolucionarias que analizan a la competencia y ajustan automáticamente los precios de tu tienda para maximizar los beneficios. Compara las opciones gratuitas con las de pago mediante pruebas reales. Aprovecha ahora tu ventaja competitiva en materia de precios.

10 herramientas
xix.ai
código Los mejores revisores de código basados en IA: automatiza el cumplimiento de las normas de código limpio y refactoriza los archivos de repositorios heredados
Los mejores revisores de código basados en IA: automatiza el cumplimiento de las normas de código limpio y refactoriza los archivos de repositorios heredados

Descubre los mejores revisores de código con IA de 2026 en XIX.AI. Nuestra lista seleccionada incluye herramientas de primera categoría y revolucionarias para automatizar el cumplimiento de las normas de código limpio y refactorizar archivos de repositorios heredados. Compara las opciones gratuitas con las de pago mediante pruebas reales y clasificaciones que se actualizan semanalmente. Aprovecha hoy mismo tu ventaja con la IA.

10 herramientas
xix.ai
Texto a voz Las mejores aplicaciones de síntesis de voz con IA para la dislexia: apoyo al aprendizaje y mejora de la eficiencia en la lectura de los estudiantes
Las mejores aplicaciones de síntesis de voz con IA para la dislexia: apoyo al aprendizaje y mejora de la eficiencia en la lectura de los estudiantes

Descubre las mejores aplicaciones de TTS con IA de 2026, seleccionadas específicamente para ayudar a las personas con dislexia. Nuestra clasificación, elaborada por expertos, compara herramientas gratuitas y de pago, y destaca sus potentes funciones para mejorar la eficiencia en la lectura y el aprendizaje. Explora soluciones innovadoras e imprescindibles para liberar el potencial de los estudiantes. Empieza tu viaje en XIX.AI.

10 herramientas
xix.ai
comentario (0)
0/500
OR