Alibaba Tongyi apresenta modelo de voz com controle de linguagem natural “FreeStyle”
Hoje, a equipe de fala do Alibaba Tongyi Lab apresentou dois modelos inovadores de geração de voz: Fun-CosyVoice3.5 e Fun-AudioGen-VD. A característica que se destaca nesses modelos é o suporte a comandos “FreeStyle”. Em vez de ajustes complexos de parâmetros, os usuários podem controlar com precisão os estilos de expressão vocal ou criar cenas de áudio complexas do zero usando descrições simples em linguagem natural.

Cada modelo tem finalidades distintas:
Fun-CosyVoice3.5: replicação multilíngue e controle refinado
Esta versão aprimorada do CosyVoice alcança avanços importantes na compreensão das nuances da expressão vocal.
Geração orientada por comandos: os usuários podem inserir instruções como “fale com mais confiança” ou “diminua o ritmo com variação emocional” para ajustes vocais em tempo real.
Expansão de idiomas: o suporte adicionado para tailandês, indonésio, português e vietnamita mantém o desempenho líder do setor em precisão de transcrição (WER) e similaridade de voz em 13 idiomas.
Otimização de caracteres raros: O treinamento especializado reduziu as taxas de erro para caracteres incomuns de 15,2% para 5,3%.
Aumento de desempenho: a latência do primeiro pacote diminuiu 35%, melhorando significativamente a fluidez da interação em tempo real.
Fun-AudioGen-VD: Design de som abrangente
Este modelo atua como um “diretor de áudio”, gerando áudio integrado que combina “personagens + ambientes”.
Personalização de voz: especifique gênero, idade, sotaque e características detalhadas, como vozes “roucas, graves ou agudas”.
Emoção e interpretação: simula papéis, incluindo agentes de atendimento ao cliente, locutores e crianças, transmitindo até mesmo estados complexos como “calma exterior com tensão interior”.
Ambientes imersivos: adiciona sons de fundo (caos no campo de batalha, murmúrios em cafés) e efeitos espaciais (reverberação em catedrais, acústica subaquática) para uma simulação espacial completa.
O Tongyi Lab observa que esses modelos democratizarão a criação de vozes de alta qualidade, oferecendo um poderoso suporte de IA para podcasting, desenvolvimento de jogos e pós-produção de filmes.
Artigo relacionado
Revelado o primeiro hardware de IA da Apple: AirPods com câmera entram na fase de DVT
As ambições da Apple no campo do hardware de IA estão ficando mais claras. O renomado jornalista de tecnologia Mark Gurman relata que os tão esperados AirPods com câmeras integradas entraram na fase f
O iOS 27 lançará um aplicativo independente da Siri com interface de chatbot
A menos de um mês da Conferência Mundial de Desenvolvedores (WWDC) de 2026 da Apple, o renomado jornalista de tecnologia Mark Gurman compartilhou novas informações sobre o iOS 27. No próximo sistema,
Especialistas em IA em ação: grandes modelos assumem o controle das fábricas, e a produção industrial entra em uma nova fase de evolução
Na vanguarda da fermentação biológica, do projeto arquitetônico e até mesmo do tratamento de águas residuais, um novo tipo de “funcionário” está silenciosamente remodelando a manufatura tradicional. N
Recomendações de tópicos especiais relacionados
Comentários (0)
Hoje, a equipe de fala do Alibaba Tongyi Lab apresentou dois modelos inovadores de geração de voz: Fun-CosyVoice3.5 e Fun-AudioGen-VD. A característica que se destaca nesses modelos é o suporte a comandos “FreeStyle”. Em vez de ajustes complexos de parâmetros, os usuários podem controlar com precisão os estilos de expressão vocal ou criar cenas de áudio complexas do zero usando descrições simples em linguagem natural.

Cada modelo tem finalidades distintas:
Fun-CosyVoice3.5: replicação multilíngue e controle refinado
Esta versão aprimorada do CosyVoice alcança avanços importantes na compreensão das nuances da expressão vocal.
Geração orientada por comandos: os usuários podem inserir instruções como “fale com mais confiança” ou “diminua o ritmo com variação emocional” para ajustes vocais em tempo real.
Expansão de idiomas: o suporte adicionado para tailandês, indonésio, português e vietnamita mantém o desempenho líder do setor em precisão de transcrição (WER) e similaridade de voz em 13 idiomas.
Otimização de caracteres raros: O treinamento especializado reduziu as taxas de erro para caracteres incomuns de 15,2% para 5,3%.
Aumento de desempenho: a latência do primeiro pacote diminuiu 35%, melhorando significativamente a fluidez da interação em tempo real.
Fun-AudioGen-VD: Design de som abrangente
Este modelo atua como um “diretor de áudio”, gerando áudio integrado que combina “personagens + ambientes”.
Personalização de voz: especifique gênero, idade, sotaque e características detalhadas, como vozes “roucas, graves ou agudas”.
Emoção e interpretação: simula papéis, incluindo agentes de atendimento ao cliente, locutores e crianças, transmitindo até mesmo estados complexos como “calma exterior com tensão interior”.
Ambientes imersivos: adiciona sons de fundo (caos no campo de batalha, murmúrios em cafés) e efeitos espaciais (reverberação em catedrais, acústica subaquática) para uma simulação espacial completa.
O Tongyi Lab observa que esses modelos democratizarão a criação de vozes de alta qualidade, oferecendo um poderoso suporte de IA para podcasting, desenvolvimento de jogos e pós-produção de filmes.
Revelado o primeiro hardware de IA da Apple: AirPods com câmera entram na fase de DVT
As ambições da Apple no campo do hardware de IA estão ficando mais claras. O renomado jornalista de tecnologia Mark Gurman relata que os tão esperados AirPods com câmeras integradas entraram na fase f
O iOS 27 lançará um aplicativo independente da Siri com interface de chatbot
A menos de um mês da Conferência Mundial de Desenvolvedores (WWDC) de 2026 da Apple, o renomado jornalista de tecnologia Mark Gurman compartilhou novas informações sobre o iOS 27. No próximo sistema,
Especialistas em IA em ação: grandes modelos assumem o controle das fábricas, e a produção industrial entra em uma nova fase de evolução
Na vanguarda da fermentação biológica, do projeto arquitetônico e até mesmo do tratamento de águas residuais, um novo tipo de “funcionário” está silenciosamente remodelando a manufatura tradicional. N





Lar






