Lar
O modelo TTS de código aberto OmniVoice da Xiaomi permite a clonagem sem treinamento prévio em mais de 600 idiomas
Recentemente, a equipe da próxima geração do Kaldi (k2-fsa) da Xiaomi tornou oficialmente o OmniVoice um projeto de código aberto. Trata-se de um modelo multilíngue de conversão de texto em fala de grande escala, sem treinamento prévio, que suporta mais de 600 idiomas. Ele alcança resultados de ponta em vários benchmarks importantes para síntese em chinês, inglês e multilíngue, marcando um avanço significativo na área.
Desempenho de ponta: WER em chinês de apenas 0,84%, superando os modelos convencionais em testes multilíngues
No conjunto de testes Seed-TTS em chinês, o OmniVoice alcança uma taxa de erro de palavras (WER) notavelmente baixa, de apenas 0,84%. Em avaliações multilíngues, suas pontuações de similaridade (SIM-o) e WER superam modelos comerciais bem conhecidos, como o ElevenLabs v2 e o MiniMax, demonstrando naturalidade e clareza excepcionais na fala.

Inferência ultrarrápida: RTF de apenas 0,025, 40 vezes mais rápido que o tempo real
O OmniVoice apresenta um fator de tempo real (RTF) de apenas 0,025, o que significa que sua velocidade de síntese excede em muito os requisitos de tempo real. Esse enorme ganho de eficiência permite a geração rápida de fala de formato longo em aplicações práticas, melhorando significativamente a experiência do usuário.
Inovação arquitetônica central: design discreto não autorregressivo inspirado em modelos de difusão
O OmniVoice emprega uma nova arquitetura discreta não autorregressiva inspirada em modelos de linguagem de difusão. Ele gera fala a partir de texto em uma única etapa, contornando os tokens semânticos intermediários tradicionais. Esse design simplificado agiliza o fluxo de trabalho, mantendo a alta qualidade de saída. Uma estratégia de mascaramento aleatório do livro de códigos completo, combinada com a inicialização de LLM pré-treinado, aumenta ainda mais a eficiência do treinamento e melhora a clareza e a inteligibilidade da fala final.
Clonagem e personalização flexíveis de voz: funciona com apenas 3 a 10 segundos de áudio
O modelo suporta clonagem de voz de alta qualidade sem treinamento prévio, usando apenas 3 a 10 segundos de áudio de referência. Os usuários também podem personalizar atributos de voz por meio de comandos em linguagem natural, especificando gênero, idade, tom, sotaque, dialeto e até mesmo efeitos especiais, como sussurros.
Lida com símbolos não linguísticos e controle refinado de pronúncia
O OmniVoice pode processar símbolos não linguísticos, como [risos], e suporta correção de pronúncia por meio de pinyin ou símbolos fonéticos. Isso o torna particularmente adequado para síntese precisa em chinês e vários dialetos.
Suporte para mais de 600 idiomas: auxiliando na preservação digital de idiomas minoritários e ameaçados de extinção
Um dos principais destaques do OmniVoice é sua ampla cobertura de idiomas, oferecendo suporte eficiente tanto para idiomas de grande difusão quanto para inúmeros idiomas com poucos recursos. Para idiomas minoritários e em risco de extinção, ele pode gerar fala de alta qualidade com amostras mínimas de dados, oferecendo um potencial significativo para a preservação digital de idiomas e a proteção cultural.
O código e os modelos pré-treinados do OmniVoice agora estão disponíveis como código aberto no GitHub e no Hugging Face, permitindo que desenvolvedores o implantem localmente ou o integrem em aplicativos. A AIbase continuará monitorando o feedback da comunidade e os casos de uso no mundo real. Os desenvolvedores são incentivados a compartilhar suas experiências.
Link do projeto: https://github.com/k2-fsa/OmniVoice
Artigo relacionado
A Zhiyuan WITA encerra a interação com o robô “nu” com o primeiro pedido de conformidade
O setor de inteligência incorporada atingiu um marco significativo. De acordo com o último comunicado da Administração do Ciberespaço de Xangai, o modelo de grande porte WITA, desenvolvido pela Zhiyua
Estudo da Anthropic associa conteúdo de IA bem elaborado à redução do raciocínio humano
Quando você vê a IA produzir instantaneamente um código ou documento bem estruturado e logicamente claro, você fica tentado a confiar nela sem pensar duas vezes? De acordo com a AIbase, a Anthropic, e
Departamentos do governo britânico entram em conflito sobre as necessidades energéticas dos centros de dados de IA
O governo do Reino Unido enfrenta um grande desafio: promover a energia limpa e, ao mesmo tempo, aspirar a se tornar líder global em inteligência artificial. No entanto, observam-se sérias inconsistên
Recomendações de tópicos especiais relacionados
Comentários (0)
Recentemente, a equipe da próxima geração do Kaldi (k2-fsa) da Xiaomi tornou oficialmente o OmniVoice um projeto de código aberto. Trata-se de um modelo multilíngue de conversão de texto em fala de grande escala, sem treinamento prévio, que suporta mais de 600 idiomas. Ele alcança resultados de ponta em vários benchmarks importantes para síntese em chinês, inglês e multilíngue, marcando um avanço significativo na área.
Desempenho de ponta: WER em chinês de apenas 0,84%, superando os modelos convencionais em testes multilíngues
No conjunto de testes Seed-TTS em chinês, o OmniVoice alcança uma taxa de erro de palavras (WER) notavelmente baixa, de apenas 0,84%. Em avaliações multilíngues, suas pontuações de similaridade (SIM-o) e WER superam modelos comerciais bem conhecidos, como o ElevenLabs v2 e o MiniMax, demonstrando naturalidade e clareza excepcionais na fala.

Inferência ultrarrápida: RTF de apenas 0,025, 40 vezes mais rápido que o tempo real
O OmniVoice apresenta um fator de tempo real (RTF) de apenas 0,025, o que significa que sua velocidade de síntese excede em muito os requisitos de tempo real. Esse enorme ganho de eficiência permite a geração rápida de fala de formato longo em aplicações práticas, melhorando significativamente a experiência do usuário.
Inovação arquitetônica central: design discreto não autorregressivo inspirado em modelos de difusão
O OmniVoice emprega uma nova arquitetura discreta não autorregressiva inspirada em modelos de linguagem de difusão. Ele gera fala a partir de texto em uma única etapa, contornando os tokens semânticos intermediários tradicionais. Esse design simplificado agiliza o fluxo de trabalho, mantendo a alta qualidade de saída. Uma estratégia de mascaramento aleatório do livro de códigos completo, combinada com a inicialização de LLM pré-treinado, aumenta ainda mais a eficiência do treinamento e melhora a clareza e a inteligibilidade da fala final.
Clonagem e personalização flexíveis de voz: funciona com apenas 3 a 10 segundos de áudio
O modelo suporta clonagem de voz de alta qualidade sem treinamento prévio, usando apenas 3 a 10 segundos de áudio de referência. Os usuários também podem personalizar atributos de voz por meio de comandos em linguagem natural, especificando gênero, idade, tom, sotaque, dialeto e até mesmo efeitos especiais, como sussurros.
Lida com símbolos não linguísticos e controle refinado de pronúncia
O OmniVoice pode processar símbolos não linguísticos, como [risos], e suporta correção de pronúncia por meio de pinyin ou símbolos fonéticos. Isso o torna particularmente adequado para síntese precisa em chinês e vários dialetos.
Suporte para mais de 600 idiomas: auxiliando na preservação digital de idiomas minoritários e ameaçados de extinção
Um dos principais destaques do OmniVoice é sua ampla cobertura de idiomas, oferecendo suporte eficiente tanto para idiomas de grande difusão quanto para inúmeros idiomas com poucos recursos. Para idiomas minoritários e em risco de extinção, ele pode gerar fala de alta qualidade com amostras mínimas de dados, oferecendo um potencial significativo para a preservação digital de idiomas e a proteção cultural.
O código e os modelos pré-treinados do OmniVoice agora estão disponíveis como código aberto no GitHub e no Hugging Face, permitindo que desenvolvedores o implantem localmente ou o integrem em aplicativos. A AIbase continuará monitorando o feedback da comunidade e os casos de uso no mundo real. Os desenvolvedores são incentivados a compartilhar suas experiências.
Link do projeto: https://github.com/k2-fsa/OmniVoice
A Zhiyuan WITA encerra a interação com o robô “nu” com o primeiro pedido de conformidade
O setor de inteligência incorporada atingiu um marco significativo. De acordo com o último comunicado da Administração do Ciberespaço de Xangai, o modelo de grande porte WITA, desenvolvido pela Zhiyua
Estudo da Anthropic associa conteúdo de IA bem elaborado à redução do raciocínio humano
Quando você vê a IA produzir instantaneamente um código ou documento bem estruturado e logicamente claro, você fica tentado a confiar nela sem pensar duas vezes? De acordo com a AIbase, a Anthropic, e
Departamentos do governo britânico entram em conflito sobre as necessidades energéticas dos centros de dados de IA
O governo do Reino Unido enfrenta um grande desafio: promover a energia limpa e, ao mesmo tempo, aspirar a se tornar líder global em inteligência artificial. No entanto, observam-se sérias inconsistên











