Lar
A Xiaomi apresenta o MiMo-V2-TTS, seu modelo de IA desenvolvido internamente para síntese de voz com dialetos e emoções
A Xiaomi lançou oficialmente seu modelo de síntese de voz em grande escala desenvolvido internamente, o MiMo-V2-TTS, que representa um grande avanço na geração de voz altamente controlável e expressiva. Baseado no Audio Tokenizer, de propriedade da Xiaomi, e em uma estrutura de modelagem conjunta de texto e fala com múltiplos codebooks, o modelo aproveita um extenso pré-treinamento com centenas de milhões de horas de dados de fala para alcançar ajustes precisos, desde estilos gerais até detalhes emocionais sutis. Ao contrário dos sistemas TTS convencionais, o MiMo-V2-TTS é capaz de executar mudanças de tom e variações emocionais dentro de uma única frase, imitando de perto o ritmo natural da fala humana e suportando a síntese de músicas com afinação e ritmo precisos. Tecnicamente, a Xiaomi incorporou aprendizado por reforço multidimensional para equilibrar a estabilidade e a expressividade da saída. O modelo reconhece de forma inteligente pistas textuais, como pontuação, marcadores de entonação e indicadores de ênfase, traduzindo-as em expressões vocais apropriadas sem a necessidade de anotações manuais adicionais. Além disso, o modelo exibe forte adaptabilidade inter-regional, suportando vários dialetos, incluindo sotaques do mandarim do Nordeste, de Sichuan, de Henan, cantonês e taiwanês, e é capaz de performances vocais orientadas por personagens.
Como um marco importante no roteiro de tecnologia de voz da Xiaomi, o MiMo-V2-TTS expandirá ainda mais o suporte multilíngue e se integrará profundamente aos recursos de compreensão multimodal do MiMo-V2-Omni. Essa evolução da síntese de fala autônoma para a percepção e expressão multimodal coordenada sinaliza uma mudança nos agentes de IA, passando da interação semântica básica para uma interação homem-computador mais personalizada e emocionalmente ressonante, melhorando significativamente a experiência do usuário em aplicações como cabines inteligentes e casas inteligentes.

Artigo relacionado
Alibaba Tuhao M890 estreia com desempenho triplamente superior, marcando o início de uma nova era de agentes full-stack para modelos de inferência em nuvem e chip.
Em 20 de maio de 2026, no Alibaba Cloud Summit, a empresa anunciou a conclusão de uma atualização do sistema tecnológico full-stack projetada para a era dos agentes inteligentes. Essa transformação redefiniu todo o processo, desde os chips e a plataf
Pentium 4 Revival: Uma CPU com 20 Anos de História Executa o Modelo Grande Meta Llama 3
Recentemente, o canal técnico do YouTube Fully Buffered realizou um experimento impressionante e rigoroso: conseguiu executar com sucesso o mais recente modelo grande da Meta, Llama 3.2 3B, em um processador Pentium 4 641, um chip lançado em 2006.Es
O distrito de Shangcheng, em Hangzhou, lança as primeiras “Dez Medidas Douradas” audiovisuais da AIGC em Zhejiang, com um fundo industrial de 5 bilhões de yuans.
No dia 16, ocorreu a Conferência do Ecossistema de Inovação da Indústria Audiovisual AIGC em Shangcheng District, Hangzhou. Durante o evento, a província anunciou sua primeira política específica para a indústria audiovisual AIGC – “Os Dez Dourados”.
Recomendações de tópicos especiais relacionados
Comentários (0)
A Xiaomi lançou oficialmente seu modelo de síntese de voz em grande escala desenvolvido internamente, o MiMo-V2-TTS, que representa um grande avanço na geração de voz altamente controlável e expressiva. Baseado no Audio Tokenizer, de propriedade da Xiaomi, e em uma estrutura de modelagem conjunta de texto e fala com múltiplos codebooks, o modelo aproveita um extenso pré-treinamento com centenas de milhões de horas de dados de fala para alcançar ajustes precisos, desde estilos gerais até detalhes emocionais sutis. Ao contrário dos sistemas TTS convencionais, o MiMo-V2-TTS é capaz de executar mudanças de tom e variações emocionais dentro de uma única frase, imitando de perto o ritmo natural da fala humana e suportando a síntese de músicas com afinação e ritmo precisos. Tecnicamente, a Xiaomi incorporou aprendizado por reforço multidimensional para equilibrar a estabilidade e a expressividade da saída. O modelo reconhece de forma inteligente pistas textuais, como pontuação, marcadores de entonação e indicadores de ênfase, traduzindo-as em expressões vocais apropriadas sem a necessidade de anotações manuais adicionais. Além disso, o modelo exibe forte adaptabilidade inter-regional, suportando vários dialetos, incluindo sotaques do mandarim do Nordeste, de Sichuan, de Henan, cantonês e taiwanês, e é capaz de performances vocais orientadas por personagens.
Como um marco importante no roteiro de tecnologia de voz da Xiaomi, o MiMo-V2-TTS expandirá ainda mais o suporte multilíngue e se integrará profundamente aos recursos de compreensão multimodal do MiMo-V2-Omni. Essa evolução da síntese de fala autônoma para a percepção e expressão multimodal coordenada sinaliza uma mudança nos agentes de IA, passando da interação semântica básica para uma interação homem-computador mais personalizada e emocionalmente ressonante, melhorando significativamente a experiência do usuário em aplicações como cabines inteligentes e casas inteligentes.

Alibaba Tuhao M890 estreia com desempenho triplamente superior, marcando o início de uma nova era de agentes full-stack para modelos de inferência em nuvem e chip.
Em 20 de maio de 2026, no Alibaba Cloud Summit, a empresa anunciou a conclusão de uma atualização do sistema tecnológico full-stack projetada para a era dos agentes inteligentes. Essa transformação redefiniu todo o processo, desde os chips e a plataf
Pentium 4 Revival: Uma CPU com 20 Anos de História Executa o Modelo Grande Meta Llama 3
Recentemente, o canal técnico do YouTube Fully Buffered realizou um experimento impressionante e rigoroso: conseguiu executar com sucesso o mais recente modelo grande da Meta, Llama 3.2 3B, em um processador Pentium 4 641, um chip lançado em 2006.Es
O distrito de Shangcheng, em Hangzhou, lança as primeiras “Dez Medidas Douradas” audiovisuais da AIGC em Zhejiang, com um fundo industrial de 5 bilhões de yuans.
No dia 16, ocorreu a Conferência do Ecossistema de Inovação da Indústria Audiovisual AIGC em Shangcheng District, Hangzhou. Durante o evento, a província anunciou sua primeira política específica para a indústria audiovisual AIGC – “Os Dez Dourados”.











