Lar
A Tongyi, do Alibaba, lança o Fun-CineForge: modelo de IA de código aberto alcança síntese de voz com qualidade cinematográfica
O Alibaba Tongyi Lab lançou oficialmente e disponibilizou como código aberto, em 16 de março, o modelo multimodal de síntese de voz para múltiplos cenários e com qualidade cinematográfica, denominado Fun-CineForge. Esse modelo aborda os principais desafios da dublagem por IA, incluindo a falta de sincronização labial, a ausência de expressão emocional e as características vocais inconsistentes entre vários personagens. Ele também apresenta um método de alta qualidade para a construção de conjuntos de dados.

Tecnicamente, o Fun-CineForge é pioneiro no conceito de “modalidade temporal”. Ao contrário dos modelos convencionais que se concentram exclusivamente em texto ou imagens, ele garante que a síntese de voz ocorra em intervalos de tempo precisos por meio de um controle preciso de marcações de tempo. Mesmo em cenas cinematográficas complexas com personagens ocultos, cortes frequentes de câmera ou rostos desfocados, o modelo mantém um alto grau de sincronização audiovisual e adesão às instruções.
O pipeline de construção do conjunto de dados CineDub de código aberto que o acompanha é outra inovação fundamental. O Tongyi Lab empregou o raciocínio em cadeia de pensamento de grandes modelos de linguagem para transformar automaticamente filmagens brutas em dados estruturados, reduzindo significativamente a necessidade de anotação manual. Esse processo alcança uma taxa de erro de palavras de aproximadamente 1% e uma taxa de erro de diarização de falantes de apenas 1,20%, fornecendo uma base de treinamento altamente competitiva para grandes modelos.

O Fun-CineForge já está disponível no GitHub, HuggingFace e na comunidade ModelScope, oferecendo suporte à inferência para clipes de vídeo de até 30 segundos de duração. Ele se destaca não apenas em monólogos de um único locutor, mas também oferece suporte de nível profissional para cenários de diálogos em dueto e com múltiplos locutores. Esse avanço sinaliza a evolução da tecnologia de voz com IA, passando de funções básicas de atendimento ao cliente e assistência para a pós-produção de animações e filmes de alto padrão.
GitHub: https://github.com/FunAudioLLM/FunCineForge
HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope: https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
Artigo relacionado
Alibaba Tuhao M890 estreia com desempenho triplamente superior, marcando o início de uma nova era de agentes full-stack para modelos de inferência em nuvem e chip.
Em 20 de maio de 2026, no Alibaba Cloud Summit, a empresa anunciou a conclusão de uma atualização do sistema tecnológico full-stack projetada para a era dos agentes inteligentes. Essa transformação redefiniu todo o processo, desde os chips e a plataf
Pentium 4 Revival: Uma CPU com 20 Anos de História Executa o Modelo Grande Meta Llama 3
Recentemente, o canal técnico do YouTube Fully Buffered realizou um experimento impressionante e rigoroso: conseguiu executar com sucesso o mais recente modelo grande da Meta, Llama 3.2 3B, em um processador Pentium 4 641, um chip lançado em 2006.Es
O distrito de Shangcheng, em Hangzhou, lança as primeiras “Dez Medidas Douradas” audiovisuais da AIGC em Zhejiang, com um fundo industrial de 5 bilhões de yuans.
No dia 16, ocorreu a Conferência do Ecossistema de Inovação da Indústria Audiovisual AIGC em Shangcheng District, Hangzhou. Durante o evento, a província anunciou sua primeira política específica para a indústria audiovisual AIGC – “Os Dez Dourados”.
Recomendações de tópicos especiais relacionados
Comentários (1)
Just tried the demo and honestly blown away by how natural the lip-sync feels now! 😮 Always thought AI dubbing sounded a bit robotic, but this seems like a huge leap. Wonder if this will start being used in indie films or even gaming soon? The open-source move is pretty bold too—curious to see how other companies respond.
O Alibaba Tongyi Lab lançou oficialmente e disponibilizou como código aberto, em 16 de março, o modelo multimodal de síntese de voz para múltiplos cenários e com qualidade cinematográfica, denominado Fun-CineForge. Esse modelo aborda os principais desafios da dublagem por IA, incluindo a falta de sincronização labial, a ausência de expressão emocional e as características vocais inconsistentes entre vários personagens. Ele também apresenta um método de alta qualidade para a construção de conjuntos de dados.

Tecnicamente, o Fun-CineForge é pioneiro no conceito de “modalidade temporal”. Ao contrário dos modelos convencionais que se concentram exclusivamente em texto ou imagens, ele garante que a síntese de voz ocorra em intervalos de tempo precisos por meio de um controle preciso de marcações de tempo. Mesmo em cenas cinematográficas complexas com personagens ocultos, cortes frequentes de câmera ou rostos desfocados, o modelo mantém um alto grau de sincronização audiovisual e adesão às instruções.
O pipeline de construção do conjunto de dados CineDub de código aberto que o acompanha é outra inovação fundamental. O Tongyi Lab empregou o raciocínio em cadeia de pensamento de grandes modelos de linguagem para transformar automaticamente filmagens brutas em dados estruturados, reduzindo significativamente a necessidade de anotação manual. Esse processo alcança uma taxa de erro de palavras de aproximadamente 1% e uma taxa de erro de diarização de falantes de apenas 1,20%, fornecendo uma base de treinamento altamente competitiva para grandes modelos.

O Fun-CineForge já está disponível no GitHub, HuggingFace e na comunidade ModelScope, oferecendo suporte à inferência para clipes de vídeo de até 30 segundos de duração. Ele se destaca não apenas em monólogos de um único locutor, mas também oferece suporte de nível profissional para cenários de diálogos em dueto e com múltiplos locutores. Esse avanço sinaliza a evolução da tecnologia de voz com IA, passando de funções básicas de atendimento ao cliente e assistência para a pós-produção de animações e filmes de alto padrão.
GitHub: https://github.com/FunAudioLLM/FunCineForge
HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope: https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
Alibaba Tuhao M890 estreia com desempenho triplamente superior, marcando o início de uma nova era de agentes full-stack para modelos de inferência em nuvem e chip.
Em 20 de maio de 2026, no Alibaba Cloud Summit, a empresa anunciou a conclusão de uma atualização do sistema tecnológico full-stack projetada para a era dos agentes inteligentes. Essa transformação redefiniu todo o processo, desde os chips e a plataf
Pentium 4 Revival: Uma CPU com 20 Anos de História Executa o Modelo Grande Meta Llama 3
Recentemente, o canal técnico do YouTube Fully Buffered realizou um experimento impressionante e rigoroso: conseguiu executar com sucesso o mais recente modelo grande da Meta, Llama 3.2 3B, em um processador Pentium 4 641, um chip lançado em 2006.Es
O distrito de Shangcheng, em Hangzhou, lança as primeiras “Dez Medidas Douradas” audiovisuais da AIGC em Zhejiang, com um fundo industrial de 5 bilhões de yuans.
No dia 16, ocorreu a Conferência do Ecossistema de Inovação da Indústria Audiovisual AIGC em Shangcheng District, Hangzhou. Durante o evento, a província anunciou sua primeira política específica para a indústria audiovisual AIGC – “Os Dez Dourados”.
Just tried the demo and honestly blown away by how natural the lip-sync feels now! 😮 Always thought AI dubbing sounded a bit robotic, but this seems like a huge leap. Wonder if this will start being used in indie films or even gaming soon? The open-source move is pretty bold too—curious to see how other companies respond.











