O Tongyi Lab lança os modelos de voz Fun-CosyVoice 3.5 e Fun-AudioGen-VD
Hoje, o Tongyi Lab apresentou oficialmente dois modelos de geração de voz compatíveis com o FreeStyle: o Fun-CosyVoice3.5 e o Fun-AudioGen-VD. Este lançamento representa uma mudança de paradigma na síntese de voz, passando da dependência de tags predefinidas para uma nova estrutura baseada em instruções em linguagem natural. Ele proporciona uma experiência profundamente interativa, permitindo que os usuários “gerem fala livremente com uma única frase”.


No que diz respeito à arquitetura técnica e às atualizações funcionais, o Fun-CosyVoice3.5 enfatiza a clonagem de voz multilíngue e a expressão matizada, adicionando agora suporte para quatro novos idiomas, incluindo tailandês e indonésio. Ao integrar as tecnologias de aprendizado por reforço DiffRO e GRPO, o modelo alcança melhorias substanciais na prosódia e na semelhança da qualidade de áudio. Sua taxa de erro para caracteres raros diminuiu de 15,2% para 5,3%, e o atraso inicial do pacote foi reduzido em 35%. Complementando isso, o Fun-AudioGen-VD se concentra no design de som e na modelagem de cenários. Ele oferece controle preciso e baseado em instruções sobre gênero, emoção e acústica espacial, permitindo a simulação de cenários complexos e integrados — desde um “vilão louco” até o ambiente de um “café barulhento”.
Do ponto de vista das tendências do setor, a iniciativa do Tongyi Lab eleva a geração de fala de uma simples ferramenta de conversão para uma ferramenta de criação completa. Essa capacidade de expressão digital descritiva e programável capacita diretamente setores como cinema, jogos e avatares de IA. Ela reduz os custos de criação de conteúdo ao mesmo tempo em que expande significativamente a riqueza semântica da interação homem-computador.
API: https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP
Documentação: https://help.aliyun.com/zh/model-studio/cosyvoice-clone-api?spm=a2c4g.11186623.help-menu-search-2400256.d_2
Artigo relacionado
As anotações de reuniões da IA da Talat ficam armazenadas no seu dispositivo, e não na nuvem
O Granola, aplicativo de anotações com inteligência artificial avaliado em US$ 250 milhões, vem ganhando força entre fundadores de empresas de tecnologia e investidores de capital de risco. Mas um des
O novo Roewe i6 chega ao mercado por 659.000 yuans, equipado com o Snapdragon 8155 e o modelo de grande escala Doubao
A SAIC Roewe lançou hoje o novo Roewe i6, um sedã compacto que adota integralmente a linguagem visual do Roewe D7. Sua distinta grade frontal grande e vertical e a barra de luzes horizontal se estende
Como proteger bens, edifícios e a saúde pessoal?
Em um mundo imprevisível, a proteção tornou-se uma necessidade estratégica — e não apenas uma opção. Seja para proteger as finanças, reforçar edifícios ou cuidar da saúde pessoal, a estabilidade a lon
Recomendações de tópicos especiais relacionados
Comentários (0)
Hoje,


No que diz respeito à arquitetura técnica e às atualizações funcionais,
Do ponto de vista das tendências do setor, a iniciativa
API: https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP
Documentação: https://help.aliyun.com/zh/model-studio/cosyvoice-clone-api?spm=a2c4g.11186623.help-menu-search-2400256.d_2
As anotações de reuniões da IA da Talat ficam armazenadas no seu dispositivo, e não na nuvem
O Granola, aplicativo de anotações com inteligência artificial avaliado em US$ 250 milhões, vem ganhando força entre fundadores de empresas de tecnologia e investidores de capital de risco. Mas um des
O novo Roewe i6 chega ao mercado por 659.000 yuans, equipado com o Snapdragon 8155 e o modelo de grande escala Doubao
A SAIC Roewe lançou hoje o novo Roewe i6, um sedã compacto que adota integralmente a linguagem visual do Roewe D7. Sua distinta grade frontal grande e vertical e a barra de luzes horizontal se estende
Como proteger bens, edifícios e a saúde pessoal?
Em um mundo imprevisível, a proteção tornou-se uma necessidade estratégica — e não apenas uma opção. Seja para proteger as finanças, reforçar edifícios ou cuidar da saúde pessoal, a estabilidade a lon





Lar






