A Tongyi, do Alibaba, lança o Fun-CineForge: modelo de IA de código aberto alcança síntese de voz com qualidade cinematográfica

Lar

Notícias

16 de Abril de 2026

EdwardLee

O Alibaba Tongyi Lab lançou oficialmente e disponibilizou como código aberto, em 16 de março, o modelo multimodal de síntese de voz para múltiplos cenários e com qualidade cinematográfica, denominado Fun-CineForge. Esse modelo aborda os principais desafios da dublagem por IA, incluindo a falta de sincronização labial, a ausência de expressão emocional e as características vocais inconsistentes entre vários personagens. Ele também apresenta um método de alta qualidade para a construção de conjuntos de dados.

Tecnicamente, o Fun-CineForge é pioneiro no conceito de “modalidade temporal”. Ao contrário dos modelos convencionais que se concentram exclusivamente em texto ou imagens, ele garante que a síntese de voz ocorra em intervalos de tempo precisos por meio de um controle preciso de marcações de tempo. Mesmo em cenas cinematográficas complexas com personagens ocultos, cortes frequentes de câmera ou rostos desfocados, o modelo mantém um alto grau de sincronização audiovisual e adesão às instruções.

O pipeline de construção do conjunto de dados CineDub de código aberto que o acompanha é outra inovação fundamental. O Tongyi Lab empregou o raciocínio em cadeia de pensamento de grandes modelos de linguagem para transformar automaticamente filmagens brutas em dados estruturados, reduzindo significativamente a necessidade de anotação manual. Esse processo alcança uma taxa de erro de palavras de aproximadamente 1% e uma taxa de erro de diarização de falantes de apenas 1,20%, fornecendo uma base de treinamento altamente competitiva para grandes modelos.

O Fun-CineForge já está disponível no GitHub, HuggingFace e na comunidade ModelScope, oferecendo suporte à inferência para clipes de vídeo de até 30 segundos de duração. Ele se destaca não apenas em monólogos de um único locutor, mas também oferece suporte de nível profissional para cenários de diálogos em dueto e com múltiplos locutores. Esse avanço sinaliza a evolução da tecnologia de voz com IA, passando de funções básicas de atendimento ao cliente e assistência para a pós-produção de animações e filmes de alto padrão.

GitHub: https://github.com/FunAudioLLM/FunCineForge

HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge

ModelScope: https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/

Artigo relacionado

Alibaba Tuhao M890 estreia com desempenho triplamente superior, marcando o início de uma nova era de agentes full-stack para modelos de inferência em nuvem e chip. Em 20 de maio de 2026, no Alibaba Cloud Summit, a empresa anunciou a conclusão de uma atualização do sistema tecnológico full-stack projetada para a era dos agentes inteligentes. Essa transformação redefiniu todo o processo, desde os chips e a plataf

Pentium 4 Revival: Uma CPU com 20 Anos de História Executa o Modelo Grande Meta Llama 3 Recentemente, o canal técnico do YouTube Fully Buffered realizou um experimento impressionante e rigoroso: conseguiu executar com sucesso o mais recente modelo grande da Meta, Llama 3.2 3B, em um processador Pentium 4 641, um chip lançado em 2006.Es

O distrito de Shangcheng, em Hangzhou, lança as primeiras “Dez Medidas Douradas” audiovisuais da AIGC em Zhejiang, com um fundo industrial de 5 bilhões de yuans. No dia 16, ocorreu a Conferência do Ecossistema de Inovação da Indústria Audiovisual AIGC em Shangcheng District, Hangzhou. Durante o evento, a província anunciou sua primeira política específica para a indústria audiovisual AIGC – “Os Dez Dourados”.

Recomendações de tópicos especiais relacionados

chatbot

Crie sua própria história de amor com IA usando estas ferramentas de roleplay

Descubra as melhores ferramentas de roleplay com IA de 2026 para criar narrativas imersivas. A lista selecionada pela XIX.AI apresenta assistentes poderosos e revolucionários, capazes de estimular a narrativa criativa e a profundidade emocional. Compare as opções gratuitas com as pagas por meio de testes práticos. Comece hoje mesmo sua jornada única.

10 ferramentas

xix.ai

Conversão de texto para fala

As melhores ferramentas de voz com IA para desenvolvedores de jogos independentes: economize tempo na dublagem de RPGs e romances visuais

Descubra as melhores ferramentas de voz com IA de 2026 para desenvolvedores de jogos! A lista selecionada pela XIX.AI apresenta soluções de ponta e revolucionárias para economizar seu tempo e dinheiro na dublagem de RPGs e romances visuais. Explore comparações entre opções gratuitas e pagas, testes práticos e rankings atualizados semanalmente. Encontre hoje a ferramenta de voz perfeita para você!

10 ferramentas

xix.ai

Educação e Aprendizagem

Melhores ferramentas de repetição espaçada com IA: otimize seus horários de estudo para estudantes de medicina e direito

Descubra os melhores ferramentas de repetição espaçada em AI de 2026, selecionadas por XIX.AI. Nossas escolhas mais recomendadas e revolucionárias ajudam estudantes de medicina e direito a otimizar seus horários de estudo para uma melhor retenção do conhecimento. Compare opções gratuitas e pagas com testes reais e rankings atualizados semanalmente. Desfrute agora de uma vantagem competitiva no aprendizado.

10 ferramentas

xix.ai

Criação de vídeo

As melhores plataformas de IA para conversão de texto em vídeo para redação de roteiros e narrativa visual

As melhores plataformas de IA para conversão de texto em vídeo de 2026: as ferramentas mais bem avaliadas para redação de roteiros e narrativa visual. Descubra soluções poderosas e revolucionárias para transformar seu texto em vídeos envolventes. Compare opções gratuitas e pagas com nossos rankings atualizados semanalmente e testes práticos. Encontre a plataforma perfeita para impulsionar sua criatividade e produtividade. Explore a seleção especial no XIX.AI.

10 ferramentas

xix.ai

chatbot

Orquestradores de Múltiplos Agentes IA: Projeto de Fluxos de Trabalho Automatizados Complexos através do Linguagem Natural

2026 Mais recente: Descubra os melhores orquestradores multi-agente de IA para projetar fluxos de trabalho automatizados complexos através do uso da linguagem natural. Nossa lista selecionada apresenta plataformas poderosas e altamente avaliadas para uma automação de tarefas sem falhas e um gerenciamento inteligente de processos. Compare opções gratuitas e pagas com informações reais do mundo real. Desfrute de uma vantagem competitiva com as classificações atualizadas semanalmente por especialistas da XIX.AI.

10 ferramentas

xix.ai

Edição de imagem

Melhores softwares de redução de ruído por IA: Remova granulação e artefatos em fotografias noturnas com baixa luz

Descubra os melhores softwares de redução de ruído por IA de 2026 para fotografias noturnas em baixas condições de luz. Nossa lista selecionada e avaliada compara ferramentas gratuitas e pagas, apresentando testes reais e classificações atualizadas semanalmente. Remova facilmente granulação e distorções nas imagens. Desfrute das vantagens da inteligência artificial em XIX.AI.

10 ferramentas

xix.ai

Comentários (1)

0/500

Por favor, faça o login primeiro

NicholasThomas

26 de Abril de 2026 à25 17:00:25 WEST

Just tried the demo and honestly blown away by how natural the lip-sync feels now! 😮 Always thought AI dubbing sounded a bit robotic, but this seems like a huge leap. Wonder if this will start being used in indie films or even gaming soon? The open-source move is pretty bold too—curious to see how other companies respond.

Principais notícias

AI Builder e Power Automate Revolucionam a Sumarização de Documentos Hosts de IA do podcast Notebooklm agora disponíveis para entrevistas China revela padrão nacional para robôs humanóides e inteligência incorporada Platôs de adoção de IA corporativa, revelam dados da Ramp Tutorial do Criador de Imagens do Bing: Guia de Geração de Arte por IA Aprenda a criar música de IA usando sua voz: um tutorial passo a passo do SUNO iMyFone MagicMic: Revisão e Tutorial de Mudança de Voz AI em Tempo Real Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas A Embodied Intelligence divulga a primeira norma do setor para conter o crescimento descontrolado DeepSeek V4 surge como uma revolução na IA multimodal

Mais

Apresentou