Hogar
El modelo TTS de código abierto OmniVoice de Xiaomi permite la clonación sin entrenamiento previo en más de 600 idiomas
Recientemente, el equipo de Kaldi de última generación (k2-fsa) de Xiaomi ha publicado oficialmente en código abierto OmniVoice, un modelo multilingüe de síntesis de voz sin entrenamiento previo (zero-shot) a gran escala que admite más de 600 idiomas. Este modelo alcanza resultados de vanguardia en múltiples pruebas comparativas clave para la síntesis en chino, inglés y en varios idiomas, lo que supone un avance significativo en este campo.
Rendimiento líder: WER en chino de tan solo el 0,84 %, superando a los modelos convencionales en pruebas multilingües
En el conjunto de pruebas Seed-TTS en chino, OmniVoice alcanza una tasa de error de palabras (WER) notablemente baja, de tan solo el 0,84 %. En las evaluaciones multilingües, sus puntuaciones de similitud (SIM-o) y WER superan a las de modelos comerciales muy conocidos como ElevenLabs v2 y MiniMax, lo que demuestra una naturalidad y claridad del habla excepcionales.

Inferencia ultrarrápida: RTF de tan solo 0,025, 40 veces más rápido que el tiempo real
OmniVoice cuenta con un factor de tiempo real (RTF) de tan solo 0,025, lo que significa que su velocidad de síntesis supera con creces los requisitos de tiempo real. Esta enorme ganancia en eficiencia permite la generación rápida de discurso de formato largo en aplicaciones prácticas, mejorando considerablemente la experiencia del usuario.
Innovación arquitectónica fundamental: diseño discreto no autorregresivo inspirado en modelos de difusión
OmniVoice emplea una novedosa arquitectura discreta no autorregresiva inspirada en los modelos de lenguaje de difusión. Genera voz a partir de texto en un solo paso, sin pasar por los tokens semánticos intermedios tradicionales. Este diseño optimizado simplifica el proceso de trabajo al tiempo que mantiene una alta calidad de salida. Una estrategia de enmascaramiento aleatorio del libro de códigos completo, combinada con la inicialización de un LLM preentrenado, aumenta aún más la eficiencia del entrenamiento y mejora la claridad y la inteligibilidad del discurso final.
Clonación y personalización flexible de la voz: funciona con solo 3-10 segundos de audio
El modelo admite la clonación de voz de alta calidad sin entrenamiento previo utilizando solo entre 3 y 10 segundos de audio de referencia. Los usuarios también pueden personalizar los atributos de la voz mediante indicaciones en lenguaje natural, especificando el género, la edad, el tono, el acento, el dialecto e incluso efectos especiales como el susurro.
Gestiona símbolos no lingüísticos y control de pronunciación detallado
OmniVoice puede procesar símbolos no lingüísticos, como [risas], y admite la corrección de la pronunciación mediante pinyin o símbolos fonéticos. Esto lo hace especialmente adecuado para la síntesis precisa en chino y diversos dialectos.
Compatibilidad con más de 600 idiomas: contribuyendo a la preservación digital de lenguas minoritarias y en peligro de extinción
Una de las principales características de OmniVoice es su amplia cobertura lingüística, que admite de manera eficiente tanto los idiomas principales como numerosos idiomas con pocos recursos. En el caso de las lenguas minoritarias y en peligro de extinción, puede generar voz de alta calidad con muestras de datos mínimas, lo que ofrece un potencial significativo para la preservación digital de las lenguas y la protección cultural.
El código y los modelos preentrenados de OmniVoice son ahora de código abierto en GitHub y Hugging Face, lo que permite a los desarrolladores implementarlo localmente o integrarlo en aplicaciones. AIbase seguirá supervisando los comentarios de la comunidad y los casos de uso en el mundo real. Se anima a los desarrolladores a compartir sus experiencias.
Enlace al proyecto: https://github.com/k2-fsa/OmniVoice
Artículo relacionado
Reliance da a conocer un plan de inversión en inteligencia artificial de 110 000 millones de dólares, mientras la India acelera su impulso tecnológico
Mukesh Ambani, el multimillonario presidente del conglomerado indio Reliance, anunció el jueves un plan de 10 billones de rupias (aproximadamente 110 000 millones de dólares) para construir infraestru
Zhiyuan WITA pone fin a la interacción «desnuda» con robots con la presentación de su primera declaración de cumplimiento
El sector de la inteligencia incorporada ha alcanzado un hito significativo. Según el último comunicado de la Administración del Ciberespacio de Shanghái, el modelo a gran escala WITA, desarrollado po
Un estudio antropológico relaciona el contenido generado por IA con una disminución del pensamiento humano
Cuando ves que la IA genera al instante un código o un documento bien estructurado y lógicamente claro, ¿te sientes tentado a confiar en él sin pensarlo dos veces? Según AIbase, la empresa líder en IA
Recomendaciones de temas especiales relacionados
comentario (0)
0/500
Recientemente, el equipo de Kaldi de última generación (k2-fsa) de Xiaomi ha publicado oficialmente en código abierto OmniVoice, un modelo multilingüe de síntesis de voz sin entrenamiento previo (zero-shot) a gran escala que admite más de 600 idiomas. Este modelo alcanza resultados de vanguardia en múltiples pruebas comparativas clave para la síntesis en chino, inglés y en varios idiomas, lo que supone un avance significativo en este campo.
Rendimiento líder: WER en chino de tan solo el 0,84 %, superando a los modelos convencionales en pruebas multilingües
En el conjunto de pruebas Seed-TTS en chino, OmniVoice alcanza una tasa de error de palabras (WER) notablemente baja, de tan solo el 0,84 %. En las evaluaciones multilingües, sus puntuaciones de similitud (SIM-o) y WER superan a las de modelos comerciales muy conocidos como ElevenLabs v2 y MiniMax, lo que demuestra una naturalidad y claridad del habla excepcionales.

Inferencia ultrarrápida: RTF de tan solo 0,025, 40 veces más rápido que el tiempo real
OmniVoice cuenta con un factor de tiempo real (RTF) de tan solo 0,025, lo que significa que su velocidad de síntesis supera con creces los requisitos de tiempo real. Esta enorme ganancia en eficiencia permite la generación rápida de discurso de formato largo en aplicaciones prácticas, mejorando considerablemente la experiencia del usuario.
Innovación arquitectónica fundamental: diseño discreto no autorregresivo inspirado en modelos de difusión
OmniVoice emplea una novedosa arquitectura discreta no autorregresiva inspirada en los modelos de lenguaje de difusión. Genera voz a partir de texto en un solo paso, sin pasar por los tokens semánticos intermedios tradicionales. Este diseño optimizado simplifica el proceso de trabajo al tiempo que mantiene una alta calidad de salida. Una estrategia de enmascaramiento aleatorio del libro de códigos completo, combinada con la inicialización de un LLM preentrenado, aumenta aún más la eficiencia del entrenamiento y mejora la claridad y la inteligibilidad del discurso final.
Clonación y personalización flexible de la voz: funciona con solo 3-10 segundos de audio
El modelo admite la clonación de voz de alta calidad sin entrenamiento previo utilizando solo entre 3 y 10 segundos de audio de referencia. Los usuarios también pueden personalizar los atributos de la voz mediante indicaciones en lenguaje natural, especificando el género, la edad, el tono, el acento, el dialecto e incluso efectos especiales como el susurro.
Gestiona símbolos no lingüísticos y control de pronunciación detallado
OmniVoice puede procesar símbolos no lingüísticos, como [risas], y admite la corrección de la pronunciación mediante pinyin o símbolos fonéticos. Esto lo hace especialmente adecuado para la síntesis precisa en chino y diversos dialectos.
Compatibilidad con más de 600 idiomas: contribuyendo a la preservación digital de lenguas minoritarias y en peligro de extinción
Una de las principales características de OmniVoice es su amplia cobertura lingüística, que admite de manera eficiente tanto los idiomas principales como numerosos idiomas con pocos recursos. En el caso de las lenguas minoritarias y en peligro de extinción, puede generar voz de alta calidad con muestras de datos mínimas, lo que ofrece un potencial significativo para la preservación digital de las lenguas y la protección cultural.
El código y los modelos preentrenados de OmniVoice son ahora de código abierto en GitHub y Hugging Face, lo que permite a los desarrolladores implementarlo localmente o integrarlo en aplicaciones. AIbase seguirá supervisando los comentarios de la comunidad y los casos de uso en el mundo real. Se anima a los desarrolladores a compartir sus experiencias.
Enlace al proyecto: https://github.com/k2-fsa/OmniVoice
Reliance da a conocer un plan de inversión en inteligencia artificial de 110 000 millones de dólares, mientras la India acelera su impulso tecnológico
Mukesh Ambani, el multimillonario presidente del conglomerado indio Reliance, anunció el jueves un plan de 10 billones de rupias (aproximadamente 110 000 millones de dólares) para construir infraestru
Zhiyuan WITA pone fin a la interacción «desnuda» con robots con la presentación de su primera declaración de cumplimiento
El sector de la inteligencia incorporada ha alcanzado un hito significativo. Según el último comunicado de la Administración del Ciberespacio de Shanghái, el modelo a gran escala WITA, desarrollado po
Un estudio antropológico relaciona el contenido generado por IA con una disminución del pensamiento humano
Cuando ves que la IA genera al instante un código o un documento bien estructurado y lógicamente claro, ¿te sientes tentado a confiar en él sin pensarlo dos veces? Según AIbase, la empresa líder en IA











