O modelo TTS de código aberto OmniVoice da Xiaomi permite a clonagem sem treinamento prévio em mais de 600 idiomas

Lar

Notícias

8 de Maio de 2026

RobertSanchez

Recentemente, a equipe da próxima geração do Kaldi (k2-fsa) da Xiaomi tornou oficialmente o OmniVoice um projeto de código aberto. Trata-se de um modelo multilíngue de conversão de texto em fala de grande escala, sem treinamento prévio, que suporta mais de 600 idiomas. Ele alcança resultados de ponta em vários benchmarks importantes para síntese em chinês, inglês e multilíngue, marcando um avanço significativo na área.

Desempenho de ponta: WER em chinês de apenas 0,84%, superando os modelos convencionais em testes multilíngues

No conjunto de testes Seed-TTS em chinês, o OmniVoice alcança uma taxa de erro de palavras (WER) notavelmente baixa, de apenas 0,84%. Em avaliações multilíngues, suas pontuações de similaridade (SIM-o) e WER superam modelos comerciais bem conhecidos, como o ElevenLabs v2 e o MiniMax, demonstrando naturalidade e clareza excepcionais na fala.

Inferência ultrarrápida: RTF de apenas 0,025, 40 vezes mais rápido que o tempo real

O OmniVoice apresenta um fator de tempo real (RTF) de apenas 0,025, o que significa que sua velocidade de síntese excede em muito os requisitos de tempo real. Esse enorme ganho de eficiência permite a geração rápida de fala de formato longo em aplicações práticas, melhorando significativamente a experiência do usuário.

Inovação arquitetônica central: design discreto não autorregressivo inspirado em modelos de difusão

O OmniVoice emprega uma nova arquitetura discreta não autorregressiva inspirada em modelos de linguagem de difusão. Ele gera fala a partir de texto em uma única etapa, contornando os tokens semânticos intermediários tradicionais. Esse design simplificado agiliza o fluxo de trabalho, mantendo a alta qualidade de saída. Uma estratégia de mascaramento aleatório do livro de códigos completo, combinada com a inicialização de LLM pré-treinado, aumenta ainda mais a eficiência do treinamento e melhora a clareza e a inteligibilidade da fala final.

Clonagem e personalização flexíveis de voz: funciona com apenas 3 a 10 segundos de áudio

O modelo suporta clonagem de voz de alta qualidade sem treinamento prévio, usando apenas 3 a 10 segundos de áudio de referência. Os usuários também podem personalizar atributos de voz por meio de comandos em linguagem natural, especificando gênero, idade, tom, sotaque, dialeto e até mesmo efeitos especiais, como sussurros.

Lida com símbolos não linguísticos e controle refinado de pronúncia

O OmniVoice pode processar símbolos não linguísticos, como [risos], e suporta correção de pronúncia por meio de pinyin ou símbolos fonéticos. Isso o torna particularmente adequado para síntese precisa em chinês e vários dialetos.

Suporte para mais de 600 idiomas: auxiliando na preservação digital de idiomas minoritários e ameaçados de extinção

Um dos principais destaques do OmniVoice é sua ampla cobertura de idiomas, oferecendo suporte eficiente tanto para idiomas de grande difusão quanto para inúmeros idiomas com poucos recursos. Para idiomas minoritários e em risco de extinção, ele pode gerar fala de alta qualidade com amostras mínimas de dados, oferecendo um potencial significativo para a preservação digital de idiomas e a proteção cultural.

O código e os modelos pré-treinados do OmniVoice agora estão disponíveis como código aberto no GitHub e no Hugging Face, permitindo que desenvolvedores o implantem localmente ou o integrem em aplicativos. A AIbase continuará monitorando o feedback da comunidade e os casos de uso no mundo real. Os desenvolvedores são incentivados a compartilhar suas experiências.

Link do projeto: https://github.com/k2-fsa/OmniVoice

Artigo relacionado

A Zhiyuan WITA encerra a interação com o robô “nu” com o primeiro pedido de conformidade O setor de inteligência incorporada atingiu um marco significativo. De acordo com o último comunicado da Administração do Ciberespaço de Xangai, o modelo de grande porte WITA, desenvolvido pela Zhiyua

Estudo da Anthropic associa conteúdo de IA bem elaborado à redução do raciocínio humano Quando você vê a IA produzir instantaneamente um código ou documento bem estruturado e logicamente claro, você fica tentado a confiar nela sem pensar duas vezes? De acordo com a AIbase, a Anthropic, e

Departamentos do governo britânico entram em conflito sobre as necessidades energéticas dos centros de dados de IA O governo do Reino Unido enfrenta um grande desafio: promover a energia limpa e, ao mesmo tempo, aspirar a se tornar líder global em inteligência artificial. No entanto, observam-se sérias inconsistên

Recomendações de tópicos especiais relacionados

Criação de quadrinhos

As melhores ferramentas de colorização automática com IA para mangás: aplique cores planas sem erros de consistência

Descubra as melhores ferramentas de colorização automática por IA para mangás de 2026 no XIX.AI. Nossa lista selecionada apresenta soluções de ponta e revolucionárias que aplicam cores planas sem nenhum erro de consistência, aumentando sua produtividade. Explore comparações entre versões gratuitas e pagas, testes práticos e rankings atualizados semanalmente para encontrar a opção ideal para você. Aproveite hoje mesmo as vantagens da IA.

10 ferramentas

xix.ai

escrita

Os melhores criadores de perfis de ficção com IA: gerar motivações consistentes para personagens e falhas fatais

Descubra os melhores criadores de perfis de ficção com IA de 2026 para criar personagens complexos. A lista selecionada pela XIX.AI apresenta ferramentas de ponta e revolucionárias que geram motivações consistentes e falhas fatais. Compare as opções gratuitas com as pagas por meio de testes práticos. Liberte agora o seu potencial narrativo.

10 ferramentas

xix.ai

Negócios

Os melhores softwares de otimização de preços com IA: acompanhe os concorrentes e ajuste automaticamente os preços da loja

Descubra os melhores softwares de otimização de preços com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta ferramentas de ponta e revolucionárias que monitoram os concorrentes e ajustam automaticamente os preços da sua loja para maximizar o lucro. Compare opções gratuitas e pagas com testes práticos. Obtenha sua vantagem competitiva em preços agora mesmo.

10 ferramentas

xix.ai

código

Os melhores revisores de código com IA: automatize a conformidade com o código limpo e refatore arquivos de repositórios legados

Descubra os melhores revisores de código com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta ferramentas de ponta e revolucionárias para automatizar a conformidade com o código limpo e refatorar arquivos de repositórios legados. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Obtenha sua vantagem com IA hoje mesmo.

10 ferramentas

xix.ai

Conversão de texto para fala

Os melhores aplicativos de TTS com IA para dislexia: apoio à aprendizagem e à eficiência na leitura para alunos

Descubra os melhores aplicativos de TTS com IA de 2026, selecionados especialmente para auxiliar na dislexia. Nossas classificações especializadas comparam ferramentas gratuitas e pagas, destacando recursos avançados para melhorar a eficiência na leitura e na aprendizagem. Explore soluções inovadoras e imperdíveis para revelar o potencial dos alunos. Comece sua jornada no XIX.AI.

10 ferramentas

xix.ai

Criação de quadrinhos

Os melhores geradores de IA para mangás shonen: crie sequências de ação cheias de adrenalina e efeitos de energia

Descubra os melhores geradores de IA para mangás shonen de 2026 no XIX.AI. Nossa lista selecionada e com as melhores avaliações apresenta ferramentas poderosas para criar sequências de ação cheias de adrenalina e efeitos dinâmicos de energia. Compare opções gratuitas e pagas com testes práticos. Liberte seu potencial criativo e comece a criar mangás épicos hoje mesmo!

15 ferramentas

xix.ai