A geração de vídeo da IA se move para o controle completo
18 de Abril de 2025
RyanLopez
23
Modelos de fundação em vídeo como Hunyuan e Wan 2.1 fizeram avanços significativos, mas geralmente ficam aquém do controle detalhado necessário na produção de filmes e TV, especialmente no campo dos efeitos visuais (VFX). Nos estúdios profissionais de VFX, esses modelos, juntamente com modelos anteriores baseados em imagens como Difusão estável, Kandinsky e Flux, são usados em conjunto com um conjunto de ferramentas projetadas para refinar sua saída para atender às demandas criativas específicas. Quando um diretor solicita um ajuste, dizendo algo como: "Isso parece ótimo, mas podemos torná -lo um pouco mais [n]?", Não é suficiente simplesmente afirmar que o modelo não tem precisão para fazer esses ajustes.
Em vez disso, uma equipe AI VFX empregará uma combinação de CGI tradicional e técnicas de composição, juntamente com fluxos de trabalho personalizados, para ultrapassar ainda mais os limites da síntese de vídeo. Essa abordagem é semelhante a usar um navegador padrão como o Chrome; É funcional fora da caixa, mas, para realmente adaptá -la às suas necessidades, você precisará instalar alguns plugins.
Freaks de controle
No campo da síntese de imagem baseada em difusão, um dos sistemas de terceiros mais cruciais é o Controlnet. Essa técnica apresenta o controle estruturado em modelos generativos, permitindo que os usuários oriem a geração de imagem ou vídeo usando entradas adicionais, como mapas de borda, mapas de profundidade ou informações.
*Os vários métodos do Controlnet permitem a profundidade> imagem (linha superior), segmentação semântica> imagem (canto inferior esquerdo) e geração de imagem guiada por pose de humanos e animais (canto inferior esquerdo).*
O ControlNet não depende apenas dos avisos de texto; Emprega filiais de rede neural separadas, ou adaptadores, para processar esses sinais de condicionamento, mantendo os recursos generativos do modelo básico. Isso permite saídas altamente personalizadas que se alinham intimamente às especificações do usuário, tornando inestimável aplicativos que exigem controle preciso sobre composição, estrutura ou movimento.
* Com uma pose orientadora, uma variedade de tipos de saída precisa pode ser obtida via Controlnet.* Fonte: https://arxiv.org/pdf/2302.05543
No entanto, esses sistemas baseados em adaptadores, que operam externamente em um conjunto de processos neurais focados internamente, vêm com várias desvantagens. Os adaptadores são treinados de forma independente, o que pode levar a conflitos de ramificação quando vários adaptadores são combinados, geralmente resultando em gerações de qualidade inferior. Eles também introduzem redundância de parâmetros, exigindo recursos computacionais adicionais e memória para cada adaptador, tornando a escala ineficiente. Além disso, apesar de sua flexibilidade, os adaptadores geralmente produzem resultados abaixo do ideal em comparação com os modelos totalmente ajustados para geração de várias condições. Esses problemas podem tornar os métodos baseados em adaptadores menos eficazes para tarefas que exigem a integração perfeita de múltiplos sinais de controle.
Idealmente, os recursos da ControlNet seriam integrados nativamente ao modelo de maneira modular, permitindo inovações futuras, como geração simultânea de vídeo/geração de áudio ou recursos nativos de sincronização labial. Atualmente, cada recurso adicional se torna uma tarefa de pós-produção ou um procedimento não nativo que deve navegar pelos pesos sensíveis do modelo de fundação.
Fulldit
Digite Fulldit, uma nova abordagem da China que integra recursos do estilo Controlnet diretamente em um modelo de vídeo generativo durante o treinamento, em vez de tratá-los como uma reflexão tardia.
* Do novo artigo: a abordagem Fulldit pode incorporar imposição de identidade, profundidade e movimento da câmera em uma geração nativa e pode convocar qualquer combinação destes de uma só vez.* Fonte: https://arxiv.org/pdf/2503.19907
Fulldit, conforme descrito no artigo intitulado ** Fulldit: Modelo de fundação generativo de vídeo com várias tarefas com atenção total **, integra condições de várias tarefas, como transferência de identidade, mapeamento de profundidade e movimento da câmera no núcleo de um modelo de vídeo generativo treinado. Os autores desenvolveram um modelo de protótipo e videoclipes que acompanham em um site de projeto.
** Clique para reproduzir. Exemplos de imposição de usuários no estilo ControlNet com apenas um modelo de fundação treinado nativo. ** Fonte: https://fulldit.github.io/
Os autores apresentam o FullDIT como uma prova de conceito para os modelos de texto para vídeo nativo (T2V) e imagem-video (I2V) que oferecem aos usuários mais controle do que apenas um prompt de imagem ou texto. Como não existem modelos semelhantes, os pesquisadores criaram uma nova referência chamada ** Fullbench ** para avaliar vídeos com várias tarefas, reivindicando desempenho de ponta em seus testes criados. No entanto, a objetividade da Fullbench, projetada pelos próprios autores, permanece não testada, e seu conjunto de dados de 1.400 casos pode ser muito limitado para conclusões mais amplas.
O aspecto mais intrigante da arquitetura da Fulldit é o seu potencial de incorporar novos tipos de controle. Os autores observam:
** 'Neste trabalho, exploramos apenas as condições de controle da câmera, identidades e informações de profundidade. Não investigamos ainda mais outras condições e modalidades, como áudio, fala, nuvem de pontos, caixas delimitadoras de objetos, fluxo óptico, etc. Embora o design do Fulldit possa integrar perfeitamente outras modalidades com modificações mínimas de arquitetura, como adaptar rápida e econômica e efetivamente modelos às novas condições e modalidades ainda são uma questão importante que justifica a exploração mais aprofundada.
Embora o Fulldit represente um passo à frente na geração de vídeos com várias tarefas, ele se baseia nas arquiteturas existentes, em vez de introduzir um novo paradigma. No entanto, ele se destaca como o único modelo de fundação em vídeo com recursos no estilo ControlNet integrados, e sua arquitetura foi projetada para acomodar inovações futuras.
** Clique para reproduzir. Exemplos de movimentos de câmera controlados pelo usuário, no site do projeto. **
O artigo, de autoria de nove pesquisadores da Kuaishou Technology e da Universidade Chinesa de Hong Kong, é intitulado ** Fulldit: modelo de fundação generativa de vídeo com várias tarefas com atenção total **. A página do projeto e os novos dados de benchmark estão disponíveis no Hugging Face.
Método
O mecanismo de atenção unificado da Fulldit foi projetado para aprimorar o aprendizado de representação cruzada, capturando as relações espaciais e temporais nas condições.
*De acordo com o novo artigo, o Fulldit integra várias condições de entrada por meio de auto-atimento total, convertendo-as em uma sequência unificada. Por outro lado, os modelos baseados em adaptadores (à esquerda acima) usam módulos separados para cada entrada, levando a redundância, conflitos e desempenho mais fraco.*
Diferentemente das configurações baseadas no adaptador que processam cada fluxo de entrada separadamente, a estrutura de atenção compartilhada da Fulldit evita conflitos de ramificação e reduz a sobrecarga de parâmetros. Os autores afirmam que a arquitetura pode escalar para novos tipos de entrada sem grande reprovação e que o esquema modelo mostra sinais de generalização para condicionar combinações não vistas durante o treinamento, como vincular o movimento da câmera à identidade do personagem.
** Clique para reproduzir. Exemplos de geração de identidade no site do projeto **.
Na arquitetura da Fulldit, todas as entradas de condicionamento - como texto, movimento da câmera, identidade e profundidade - são primeiro convertidas em um formato de token unificado. Esses tokens são então concatenados em uma única sequência longa, processada através de uma pilha de camadas de transformador usando auto-atimento total. Essa abordagem segue trabalhos anteriores, como plano aberto de Sora e gen.
Esse design permite que o modelo aprenda relacionamentos temporais e espaciais em conjunto em todas as condições. Cada bloco de transformador opera durante toda a sequência, permitindo interações dinâmicas entre modalidades sem depender de módulos separados para cada entrada. A arquitetura foi projetada para ser extensível, facilitando a incorporação de sinais de controle adicionais no futuro, sem grandes mudanças estruturais.
O poder de três
Fulldit converte cada sinal de controle em um formato de token padronizado, para que todas as condições possam ser processadas juntas em uma estrutura de atenção unificada. Para o movimento da câmera, o modelo codifica uma sequência de parâmetros extrínsecos - como posição e orientação - para cada quadro. Esses parâmetros são o registro de data e hora e projetados na incorporação de vetores que refletem a natureza temporal do sinal.
A informação de identidade é tratada de maneira diferente, pois é inerentemente espacial e não temporal. O modelo usa mapas de identidade que indicam quais caracteres estão presentes em quais partes de cada quadro. Esses mapas são divididos em patches, com cada patch projetado em uma incorporação que captura pistas de identidade espacial, permitindo que o modelo associe regiões específicas do quadro a entidades específicas.
A profundidade é um sinal espaço -temporal, e o modelo o lida dividindo vídeos de profundidade em patches 3D que abrangem o espaço e o tempo. Esses patches são então incorporados de uma maneira que preserva sua estrutura entre quadros.
Uma vez incorporado, todos esses tokens de condição (câmera, identidade e profundidade) são concatenados em uma única sequência longa, permitindo que o FullDIT os processasse usando a auto-distribuição completa. Essa representação compartilhada permite que o modelo aprenda interações entre modalidades e em todo o tempo sem depender de fluxos de processamento isolados.
Dados e testes
A abordagem de treinamento da Fulldit baseou -se em conjuntos de dados seletivamente anotados adaptados a cada tipo de condicionamento, em vez de exigir que todas as condições estejam presentes simultaneamente.
Para condições textuais, a iniciativa segue a abordagem de legenda estruturada descrita no projeto Miradata.
* Pipeline de coleta de vídeos e anotação do projeto Miradata.* Fonte: https://arxiv.org/pdf/2407.06358
Para o movimento da câmera, o conjunto de dados Realestate10K foi a principal fonte de dados, devido às suas anotações de alta qualidade de verdade nos parâmetros da câmera. No entanto, os autores observaram que o treinamento exclusivamente em conjuntos de dados de câmera de cena estática como o Realestate10K tendia a reduzir o objeto dinâmico e os movimentos humanos em vídeos gerados. Para neutralizar isso, eles realizaram ajustes finos adicionais usando conjuntos de dados internos que incluíam movimentos mais dinâmicos da câmera.
As anotações de identidade foram geradas usando o pipeline desenvolvido para o Projeto ConceptMaster, que permitiu filtragem e extração eficientes de informações de identidade de granulação fina.
* A estrutura do concepmaster foi projetada para resolver problemas de desarbrinação de identidade, preservando a fidelidade do conceito em vídeos personalizados.* Fonte: https://arxiv.org/pdf/2501.04698
As anotações de profundidade foram obtidas no conjunto de dados PANDA-70M usando qualquer coisa.
Otimização por meio de encomenda de dados
Os autores também implementaram um cronograma de treinamento progressivo, introduzindo condições mais desafiadoras no início do treinamento para garantir que o modelo adquirisse representações robustas antes que tarefas mais simples fossem adicionadas. A ordem de treinamento prosseguiu das condições de texto para a câmera, depois identidades e, finalmente, profundidade, com tarefas mais fáceis geralmente introduzidas posteriormente e com menos exemplos.
Os autores enfatizam o valor de ordenar a carga de trabalho dessa maneira:
** 'Durante a fase de pré-treinamento, observamos que tarefas mais desafiadoras exigem tempo prolongado de treinamento e devem ser introduzidas no início do processo de aprendizagem. Essas tarefas desafiadoras envolvem distribuições complexas de dados que diferem significativamente do vídeo de saída, exigindo que o modelo possua capacidade suficiente para capturá -las e representar com precisão. **
** 'Por outro lado, a introdução de tarefas mais fáceis muito cedo pode levar o modelo a priorizar aprendê -las primeiro, pois elas fornecem feedback de otimização mais imediato, o que dificulta a convergência de tarefas mais desafiadoras.' **
*Uma ilustração da ordem de treinamento de dados adotada pelos pesquisadores, com vermelho indicando maior volume de dados.*
Após o pré-treinamento inicial, um estágio final de ajuste fino refinou ainda mais o modelo para melhorar a qualidade visual e a dinâmica do movimento. Posteriormente, o treinamento seguiu o de uma estrutura de difusão padrão: ruído adicionado aos latentes de vídeo e o modelo de aprendizado para prever e removê -lo, usando os tokens de condição incorporados como orientação.
Para avaliar efetivamente o FullDit e fornecer uma comparação justa com os métodos existentes e, na ausência de qualquer outro benchmark apropriado, os autores introduziram ** Fullbench **, um conjunto de referência com curadoria que consiste em 1.400 casos de teste distintos.
* Uma instância do Data Explorer para a nova referência Fullbench.* Fonte: https://huggingface.co/datasets/kwaivgi/fullbench
Cada ponto de dados forneceu anotações de verdade para vários sinais de condicionamento, incluindo movimento da câmera, identidade e profundidade.
Métricas
Os autores avaliaram o FULDDIT usando dez métricas, cobrindo cinco aspectos principais do desempenho: alinhamento de texto, controle da câmera, similaridade de identidade, precisão da profundidade e qualidade geral do vídeo.
O alinhamento de texto foi medido usando a similaridade do clipe, enquanto o controle da câmera foi avaliado por meio de erro de rotação (Roterr), erro de tradução (transerr) e consistência do movimento da câmera (CAMMC), seguindo a abordagem do CAMI2V (no projeto Cameractrl).
A similaridade da identidade foi avaliada usando DINO-I e CLIP-I, e a precisão do controle de profundidade foi quantificada usando o erro absoluto médio (MAE).
A qualidade do vídeo foi julgada com três métricas de Miradata: similaridade do clipe no nível de quadros para suavidade; distância de movimento baseado em fluxo óptico para dinâmica; e escores de Laion-Aesthetic para apelo visual.
Treinamento
Os autores treinaram o FullDIT usando um modelo de difusão de texto para vídeo interno (não divulgado) contendo aproximadamente um bilhão de parâmetros. Eles escolheram intencionalmente um tamanho de parâmetro modesto para manter a justiça em comparações com métodos anteriores e garantir a reprodutibilidade.
Como os vídeos de treinamento diferiram em comprimento e resolução, os autores padronizaram cada lote redimensionando e preenchendo vídeos para uma resolução comum, amostragem de 77 quadros por sequência e usando máscaras de atenção e perda aplicadas para otimizar a eficácia do treinamento.
O otimizador de Adam foi usado a uma taxa de aprendizado de 1 × 10 −5 em um cluster de 64 GPUs NVIDIA H800, para um total combinado de 5.120 GB de VRAM (considere que, no entusiasta, comunidades de síntese, 24 GB em um RTX 3090 ainda é considerado um padrão luxuoso).
O modelo foi treinado para cerca de 32.000 etapas, incorporando até três identidades por vídeo, juntamente com 20 quadros de condições da câmera e 21 quadros de condições de profundidade, ambos uniformemente amostrados do total de 77 quadros.
Para inferência, o modelo gerou vídeos com uma resolução de 384 × 672 pixels (aproximadamente cinco segundos a 15 quadros por segundo) com 50 etapas de inferência de difusão e uma escala de orientação livre de classificadores de cinco.
Métodos anteriores
Para avaliação de câmera para video, os autores compararam o FullDIT contra o MotionCtrl, o Cameractrl e o CAMI2V, com todos os modelos treinados usando o conjunto de dados Realestate10K para garantir consistência e justiça.
Na geração condicionada de identidade, como não havia modelos comparáveis de multi-identidade de código aberto, o modelo foi comparado com o modelo conceitual de parâmetros 1B, usando os mesmos dados e arquitetura de treinamento.
Para tarefas de profundidade-video, foram feitas comparações com Ctrl-Adapter e ControlVideo.
*Resultados quantitativos para geração de vídeo de tarefa única. Fulldit foi comparado a MotionCtrl, Cameractrl e CAMI2V para geração de câmera para video; ConceptMaster (versão de parâmetro 1B) para identidade para video; e Ctrl-Adapter e ControlVideo para profundidade para video. Todos os modelos foram avaliados usando suas configurações padrão. Para consistência, 16 quadros foram amostrados uniformemente de cada método, correspondendo ao comprimento de saída dos modelos anteriores.*
Os resultados indicam que o Fulldit, apesar de lidar com vários sinais de condicionamento simultaneamente, alcançou o desempenho de ponta em métricas relacionadas ao texto, movimento da câmera, identidade e controles de profundidade.
Nas métricas gerais de qualidade, o sistema geralmente superou outros métodos, embora sua suavidade fosse um pouco menor que a concepmaster. Aqui os autores comentam:
** 'A suavidade do Fulldit é ligeiramente menor que a do mestre de conceito, pois o cálculo da suavidade é baseado na similaridade do clipe entre os quadros adjacentes. Como o Fulldit exibe dinâmica significativamente maior em comparação com o mestre de conceito, a métrica de suavidade é impactada pelas grandes variações entre os quadros adjacentes. **
** 'Para a pontuação estética, já que o modelo de classificação favorece as imagens no estilo de pintura e o ControlVideo geralmente gera vídeos nesse estilo, ele atinge uma pontuação alta na estética.' **
Em relação à comparação qualitativa, pode ser preferível se referir aos vídeos de amostra no local do projeto Fulldit, uma vez que os exemplos de PDF são inevitavelmente estáticos (e também grandes demais para se reproduzirem aqui).
*A primeira seção dos resultados qualitativos no PDF. Consulte o artigo de origem para obter exemplos adicionais, que são extensos demais para se reproduzir aqui.*
Os autores comentam:
** 'Fulldit demonstra preservação superior da identidade e gera vídeos com melhor dinâmica e qualidade visual em comparação com [conceptmaster]. Como o mestre de conceito e o Fulldit são treinados na mesma espinha dorsal, isso destaca a eficácia da injeção de condição com plena atenção. **
** '… Os [outros] resultados demonstram a controlabilidade superior e a qualidade da geração do FullDit em comparação com os métodos existentes de profundidade-video e câmera-video.' **
*Uma seção dos exemplos da saída do FullDit do PDF com vários sinais. Consulte o artigo de origem e o site do projeto para obter exemplos adicionais.*
Conclusão
O Fulldit representa um passo emocionante em direção a um modelo de fundação de vídeo mais abrangente, mas permanece a questão de saber se a demanda por recursos do estilo Controlnet justifica sua implementação em escala, especialmente para projetos de código aberto. Esses projetos lutariam para obter o vasto poder de processamento de GPU necessário sem suporte comercial.
O principal desafio é que o uso de sistemas como profundidade e pose geralmente requer uma familiaridade não trivial com interfaces de usuário complexas como a Comfyui. Portanto, é provável que um modelo funcional de código aberto desse tipo seja desenvolvido por empresas menores de VFX que não possuem recursos ou motivação para curar e treinar esse modelo em particular.
Por outro lado, os sistemas 'Rent-AI' orientados por API podem ser bem motivados para desenvolver métodos interpretativos mais simples e amigáveis para modelos com sistemas de controle auxiliares diretamente treinados.
** Clique para reproduzir. De profundidade+controles de texto impostos em uma geração de vídeo usando FullDit. **
*Os autores não especificam nenhum modelo básico conhecido (ou seja, sdxl, etc.)*
** Publicado pela primeira vez quinta -feira, 27 de março de 2025 **
Artigo relacionado
Unveiling Subtle Yet Impactful AI Modifications in Authentic Video Content
In 2019, a deceptive video of Nancy Pelosi, then Speaker of the US House of Representatives, circulated widely. The video, which was edited to make her appear intoxicated, was a stark reminder of how easily manipulated media can mislead the public. Despite its simplicity, this incident highlighted t
OpenAI plans to bring Sora’s video generator to ChatGPT
OpenAI plans to integrate its AI video generation tool, Sora, into its popular consumer chatbot, ChatGPT. This was revealed by company leaders during a recent office hours session on Discord. Currently, Sora is accessible only through a dedicated web app launched by OpenAI in December, allowing user
ByteDance Joins Deepfake AI Video Market
ByteDance, the folks behind TikTok, have just shown off their latest AI creation, OmniHuman-1, and it's pretty mind-blowing. This new system can whip up super realistic videos, and all it needs is just a single reference image and some audio. What's cool is you can tweak the video's aspect ratio and
Comentários (0)
0/200






Modelos de fundação em vídeo como Hunyuan e Wan 2.1 fizeram avanços significativos, mas geralmente ficam aquém do controle detalhado necessário na produção de filmes e TV, especialmente no campo dos efeitos visuais (VFX). Nos estúdios profissionais de VFX, esses modelos, juntamente com modelos anteriores baseados em imagens como Difusão estável, Kandinsky e Flux, são usados em conjunto com um conjunto de ferramentas projetadas para refinar sua saída para atender às demandas criativas específicas. Quando um diretor solicita um ajuste, dizendo algo como: "Isso parece ótimo, mas podemos torná -lo um pouco mais [n]?", Não é suficiente simplesmente afirmar que o modelo não tem precisão para fazer esses ajustes.
Em vez disso, uma equipe AI VFX empregará uma combinação de CGI tradicional e técnicas de composição, juntamente com fluxos de trabalho personalizados, para ultrapassar ainda mais os limites da síntese de vídeo. Essa abordagem é semelhante a usar um navegador padrão como o Chrome; É funcional fora da caixa, mas, para realmente adaptá -la às suas necessidades, você precisará instalar alguns plugins.
Freaks de controle
No campo da síntese de imagem baseada em difusão, um dos sistemas de terceiros mais cruciais é o Controlnet. Essa técnica apresenta o controle estruturado em modelos generativos, permitindo que os usuários oriem a geração de imagem ou vídeo usando entradas adicionais, como mapas de borda, mapas de profundidade ou informações.
*Os vários métodos do Controlnet permitem a profundidade> imagem (linha superior), segmentação semântica> imagem (canto inferior esquerdo) e geração de imagem guiada por pose de humanos e animais (canto inferior esquerdo).*
O ControlNet não depende apenas dos avisos de texto; Emprega filiais de rede neural separadas, ou adaptadores, para processar esses sinais de condicionamento, mantendo os recursos generativos do modelo básico. Isso permite saídas altamente personalizadas que se alinham intimamente às especificações do usuário, tornando inestimável aplicativos que exigem controle preciso sobre composição, estrutura ou movimento.
* Com uma pose orientadora, uma variedade de tipos de saída precisa pode ser obtida via Controlnet.* Fonte: https://arxiv.org/pdf/2302.05543
No entanto, esses sistemas baseados em adaptadores, que operam externamente em um conjunto de processos neurais focados internamente, vêm com várias desvantagens. Os adaptadores são treinados de forma independente, o que pode levar a conflitos de ramificação quando vários adaptadores são combinados, geralmente resultando em gerações de qualidade inferior. Eles também introduzem redundância de parâmetros, exigindo recursos computacionais adicionais e memória para cada adaptador, tornando a escala ineficiente. Além disso, apesar de sua flexibilidade, os adaptadores geralmente produzem resultados abaixo do ideal em comparação com os modelos totalmente ajustados para geração de várias condições. Esses problemas podem tornar os métodos baseados em adaptadores menos eficazes para tarefas que exigem a integração perfeita de múltiplos sinais de controle.
Idealmente, os recursos da ControlNet seriam integrados nativamente ao modelo de maneira modular, permitindo inovações futuras, como geração simultânea de vídeo/geração de áudio ou recursos nativos de sincronização labial. Atualmente, cada recurso adicional se torna uma tarefa de pós-produção ou um procedimento não nativo que deve navegar pelos pesos sensíveis do modelo de fundação.
Fulldit
Digite Fulldit, uma nova abordagem da China que integra recursos do estilo Controlnet diretamente em um modelo de vídeo generativo durante o treinamento, em vez de tratá-los como uma reflexão tardia.
* Do novo artigo: a abordagem Fulldit pode incorporar imposição de identidade, profundidade e movimento da câmera em uma geração nativa e pode convocar qualquer combinação destes de uma só vez.* Fonte: https://arxiv.org/pdf/2503.19907
Fulldit, conforme descrito no artigo intitulado ** Fulldit: Modelo de fundação generativo de vídeo com várias tarefas com atenção total **, integra condições de várias tarefas, como transferência de identidade, mapeamento de profundidade e movimento da câmera no núcleo de um modelo de vídeo generativo treinado. Os autores desenvolveram um modelo de protótipo e videoclipes que acompanham em um site de projeto.
** Clique para reproduzir. Exemplos de imposição de usuários no estilo ControlNet com apenas um modelo de fundação treinado nativo. ** Fonte: https://fulldit.github.io/
Os autores apresentam o FullDIT como uma prova de conceito para os modelos de texto para vídeo nativo (T2V) e imagem-video (I2V) que oferecem aos usuários mais controle do que apenas um prompt de imagem ou texto. Como não existem modelos semelhantes, os pesquisadores criaram uma nova referência chamada ** Fullbench ** para avaliar vídeos com várias tarefas, reivindicando desempenho de ponta em seus testes criados. No entanto, a objetividade da Fullbench, projetada pelos próprios autores, permanece não testada, e seu conjunto de dados de 1.400 casos pode ser muito limitado para conclusões mais amplas.
O aspecto mais intrigante da arquitetura da Fulldit é o seu potencial de incorporar novos tipos de controle. Os autores observam:
** 'Neste trabalho, exploramos apenas as condições de controle da câmera, identidades e informações de profundidade. Não investigamos ainda mais outras condições e modalidades, como áudio, fala, nuvem de pontos, caixas delimitadoras de objetos, fluxo óptico, etc. Embora o design do Fulldit possa integrar perfeitamente outras modalidades com modificações mínimas de arquitetura, como adaptar rápida e econômica e efetivamente modelos às novas condições e modalidades ainda são uma questão importante que justifica a exploração mais aprofundada.
Embora o Fulldit represente um passo à frente na geração de vídeos com várias tarefas, ele se baseia nas arquiteturas existentes, em vez de introduzir um novo paradigma. No entanto, ele se destaca como o único modelo de fundação em vídeo com recursos no estilo ControlNet integrados, e sua arquitetura foi projetada para acomodar inovações futuras.
** Clique para reproduzir. Exemplos de movimentos de câmera controlados pelo usuário, no site do projeto. **
O artigo, de autoria de nove pesquisadores da Kuaishou Technology e da Universidade Chinesa de Hong Kong, é intitulado ** Fulldit: modelo de fundação generativa de vídeo com várias tarefas com atenção total **. A página do projeto e os novos dados de benchmark estão disponíveis no Hugging Face.
Método
O mecanismo de atenção unificado da Fulldit foi projetado para aprimorar o aprendizado de representação cruzada, capturando as relações espaciais e temporais nas condições.
*De acordo com o novo artigo, o Fulldit integra várias condições de entrada por meio de auto-atimento total, convertendo-as em uma sequência unificada. Por outro lado, os modelos baseados em adaptadores (à esquerda acima) usam módulos separados para cada entrada, levando a redundância, conflitos e desempenho mais fraco.*
Diferentemente das configurações baseadas no adaptador que processam cada fluxo de entrada separadamente, a estrutura de atenção compartilhada da Fulldit evita conflitos de ramificação e reduz a sobrecarga de parâmetros. Os autores afirmam que a arquitetura pode escalar para novos tipos de entrada sem grande reprovação e que o esquema modelo mostra sinais de generalização para condicionar combinações não vistas durante o treinamento, como vincular o movimento da câmera à identidade do personagem.
** Clique para reproduzir. Exemplos de geração de identidade no site do projeto **.
Na arquitetura da Fulldit, todas as entradas de condicionamento - como texto, movimento da câmera, identidade e profundidade - são primeiro convertidas em um formato de token unificado. Esses tokens são então concatenados em uma única sequência longa, processada através de uma pilha de camadas de transformador usando auto-atimento total. Essa abordagem segue trabalhos anteriores, como plano aberto de Sora e gen.
Esse design permite que o modelo aprenda relacionamentos temporais e espaciais em conjunto em todas as condições. Cada bloco de transformador opera durante toda a sequência, permitindo interações dinâmicas entre modalidades sem depender de módulos separados para cada entrada. A arquitetura foi projetada para ser extensível, facilitando a incorporação de sinais de controle adicionais no futuro, sem grandes mudanças estruturais.
O poder de três
Fulldit converte cada sinal de controle em um formato de token padronizado, para que todas as condições possam ser processadas juntas em uma estrutura de atenção unificada. Para o movimento da câmera, o modelo codifica uma sequência de parâmetros extrínsecos - como posição e orientação - para cada quadro. Esses parâmetros são o registro de data e hora e projetados na incorporação de vetores que refletem a natureza temporal do sinal.
A informação de identidade é tratada de maneira diferente, pois é inerentemente espacial e não temporal. O modelo usa mapas de identidade que indicam quais caracteres estão presentes em quais partes de cada quadro. Esses mapas são divididos em patches, com cada patch projetado em uma incorporação que captura pistas de identidade espacial, permitindo que o modelo associe regiões específicas do quadro a entidades específicas.
A profundidade é um sinal espaço -temporal, e o modelo o lida dividindo vídeos de profundidade em patches 3D que abrangem o espaço e o tempo. Esses patches são então incorporados de uma maneira que preserva sua estrutura entre quadros.
Uma vez incorporado, todos esses tokens de condição (câmera, identidade e profundidade) são concatenados em uma única sequência longa, permitindo que o FullDIT os processasse usando a auto-distribuição completa. Essa representação compartilhada permite que o modelo aprenda interações entre modalidades e em todo o tempo sem depender de fluxos de processamento isolados.
Dados e testes
A abordagem de treinamento da Fulldit baseou -se em conjuntos de dados seletivamente anotados adaptados a cada tipo de condicionamento, em vez de exigir que todas as condições estejam presentes simultaneamente.
Para condições textuais, a iniciativa segue a abordagem de legenda estruturada descrita no projeto Miradata.
* Pipeline de coleta de vídeos e anotação do projeto Miradata.* Fonte: https://arxiv.org/pdf/2407.06358
Para o movimento da câmera, o conjunto de dados Realestate10K foi a principal fonte de dados, devido às suas anotações de alta qualidade de verdade nos parâmetros da câmera. No entanto, os autores observaram que o treinamento exclusivamente em conjuntos de dados de câmera de cena estática como o Realestate10K tendia a reduzir o objeto dinâmico e os movimentos humanos em vídeos gerados. Para neutralizar isso, eles realizaram ajustes finos adicionais usando conjuntos de dados internos que incluíam movimentos mais dinâmicos da câmera.
As anotações de identidade foram geradas usando o pipeline desenvolvido para o Projeto ConceptMaster, que permitiu filtragem e extração eficientes de informações de identidade de granulação fina.
* A estrutura do concepmaster foi projetada para resolver problemas de desarbrinação de identidade, preservando a fidelidade do conceito em vídeos personalizados.* Fonte: https://arxiv.org/pdf/2501.04698
As anotações de profundidade foram obtidas no conjunto de dados PANDA-70M usando qualquer coisa.
Otimização por meio de encomenda de dados
Os autores também implementaram um cronograma de treinamento progressivo, introduzindo condições mais desafiadoras no início do treinamento para garantir que o modelo adquirisse representações robustas antes que tarefas mais simples fossem adicionadas. A ordem de treinamento prosseguiu das condições de texto para a câmera, depois identidades e, finalmente, profundidade, com tarefas mais fáceis geralmente introduzidas posteriormente e com menos exemplos.
Os autores enfatizam o valor de ordenar a carga de trabalho dessa maneira:
** 'Durante a fase de pré-treinamento, observamos que tarefas mais desafiadoras exigem tempo prolongado de treinamento e devem ser introduzidas no início do processo de aprendizagem. Essas tarefas desafiadoras envolvem distribuições complexas de dados que diferem significativamente do vídeo de saída, exigindo que o modelo possua capacidade suficiente para capturá -las e representar com precisão. **
** 'Por outro lado, a introdução de tarefas mais fáceis muito cedo pode levar o modelo a priorizar aprendê -las primeiro, pois elas fornecem feedback de otimização mais imediato, o que dificulta a convergência de tarefas mais desafiadoras.' **
*Uma ilustração da ordem de treinamento de dados adotada pelos pesquisadores, com vermelho indicando maior volume de dados.*
Após o pré-treinamento inicial, um estágio final de ajuste fino refinou ainda mais o modelo para melhorar a qualidade visual e a dinâmica do movimento. Posteriormente, o treinamento seguiu o de uma estrutura de difusão padrão: ruído adicionado aos latentes de vídeo e o modelo de aprendizado para prever e removê -lo, usando os tokens de condição incorporados como orientação.
Para avaliar efetivamente o FullDit e fornecer uma comparação justa com os métodos existentes e, na ausência de qualquer outro benchmark apropriado, os autores introduziram ** Fullbench **, um conjunto de referência com curadoria que consiste em 1.400 casos de teste distintos.
* Uma instância do Data Explorer para a nova referência Fullbench.* Fonte: https://huggingface.co/datasets/kwaivgi/fullbench
Cada ponto de dados forneceu anotações de verdade para vários sinais de condicionamento, incluindo movimento da câmera, identidade e profundidade.
Métricas
Os autores avaliaram o FULDDIT usando dez métricas, cobrindo cinco aspectos principais do desempenho: alinhamento de texto, controle da câmera, similaridade de identidade, precisão da profundidade e qualidade geral do vídeo.
O alinhamento de texto foi medido usando a similaridade do clipe, enquanto o controle da câmera foi avaliado por meio de erro de rotação (Roterr), erro de tradução (transerr) e consistência do movimento da câmera (CAMMC), seguindo a abordagem do CAMI2V (no projeto Cameractrl).
A similaridade da identidade foi avaliada usando DINO-I e CLIP-I, e a precisão do controle de profundidade foi quantificada usando o erro absoluto médio (MAE).
A qualidade do vídeo foi julgada com três métricas de Miradata: similaridade do clipe no nível de quadros para suavidade; distância de movimento baseado em fluxo óptico para dinâmica; e escores de Laion-Aesthetic para apelo visual.
Treinamento
Os autores treinaram o FullDIT usando um modelo de difusão de texto para vídeo interno (não divulgado) contendo aproximadamente um bilhão de parâmetros. Eles escolheram intencionalmente um tamanho de parâmetro modesto para manter a justiça em comparações com métodos anteriores e garantir a reprodutibilidade.
Como os vídeos de treinamento diferiram em comprimento e resolução, os autores padronizaram cada lote redimensionando e preenchendo vídeos para uma resolução comum, amostragem de 77 quadros por sequência e usando máscaras de atenção e perda aplicadas para otimizar a eficácia do treinamento.
O otimizador de Adam foi usado a uma taxa de aprendizado de 1 × 10 −5 em um cluster de 64 GPUs NVIDIA H800, para um total combinado de 5.120 GB de VRAM (considere que, no entusiasta, comunidades de síntese, 24 GB em um RTX 3090 ainda é considerado um padrão luxuoso).
O modelo foi treinado para cerca de 32.000 etapas, incorporando até três identidades por vídeo, juntamente com 20 quadros de condições da câmera e 21 quadros de condições de profundidade, ambos uniformemente amostrados do total de 77 quadros.
Para inferência, o modelo gerou vídeos com uma resolução de 384 × 672 pixels (aproximadamente cinco segundos a 15 quadros por segundo) com 50 etapas de inferência de difusão e uma escala de orientação livre de classificadores de cinco.
Métodos anteriores
Para avaliação de câmera para video, os autores compararam o FullDIT contra o MotionCtrl, o Cameractrl e o CAMI2V, com todos os modelos treinados usando o conjunto de dados Realestate10K para garantir consistência e justiça.
Na geração condicionada de identidade, como não havia modelos comparáveis de multi-identidade de código aberto, o modelo foi comparado com o modelo conceitual de parâmetros 1B, usando os mesmos dados e arquitetura de treinamento.
Para tarefas de profundidade-video, foram feitas comparações com Ctrl-Adapter e ControlVideo.
*Resultados quantitativos para geração de vídeo de tarefa única. Fulldit foi comparado a MotionCtrl, Cameractrl e CAMI2V para geração de câmera para video; ConceptMaster (versão de parâmetro 1B) para identidade para video; e Ctrl-Adapter e ControlVideo para profundidade para video. Todos os modelos foram avaliados usando suas configurações padrão. Para consistência, 16 quadros foram amostrados uniformemente de cada método, correspondendo ao comprimento de saída dos modelos anteriores.*
Os resultados indicam que o Fulldit, apesar de lidar com vários sinais de condicionamento simultaneamente, alcançou o desempenho de ponta em métricas relacionadas ao texto, movimento da câmera, identidade e controles de profundidade.
Nas métricas gerais de qualidade, o sistema geralmente superou outros métodos, embora sua suavidade fosse um pouco menor que a concepmaster. Aqui os autores comentam:
** 'A suavidade do Fulldit é ligeiramente menor que a do mestre de conceito, pois o cálculo da suavidade é baseado na similaridade do clipe entre os quadros adjacentes. Como o Fulldit exibe dinâmica significativamente maior em comparação com o mestre de conceito, a métrica de suavidade é impactada pelas grandes variações entre os quadros adjacentes. **
** 'Para a pontuação estética, já que o modelo de classificação favorece as imagens no estilo de pintura e o ControlVideo geralmente gera vídeos nesse estilo, ele atinge uma pontuação alta na estética.' **
Em relação à comparação qualitativa, pode ser preferível se referir aos vídeos de amostra no local do projeto Fulldit, uma vez que os exemplos de PDF são inevitavelmente estáticos (e também grandes demais para se reproduzirem aqui).
*A primeira seção dos resultados qualitativos no PDF. Consulte o artigo de origem para obter exemplos adicionais, que são extensos demais para se reproduzir aqui.*
Os autores comentam:
** 'Fulldit demonstra preservação superior da identidade e gera vídeos com melhor dinâmica e qualidade visual em comparação com [conceptmaster]. Como o mestre de conceito e o Fulldit são treinados na mesma espinha dorsal, isso destaca a eficácia da injeção de condição com plena atenção. **
** '… Os [outros] resultados demonstram a controlabilidade superior e a qualidade da geração do FullDit em comparação com os métodos existentes de profundidade-video e câmera-video.' **
*Uma seção dos exemplos da saída do FullDit do PDF com vários sinais. Consulte o artigo de origem e o site do projeto para obter exemplos adicionais.*
Conclusão
O Fulldit representa um passo emocionante em direção a um modelo de fundação de vídeo mais abrangente, mas permanece a questão de saber se a demanda por recursos do estilo Controlnet justifica sua implementação em escala, especialmente para projetos de código aberto. Esses projetos lutariam para obter o vasto poder de processamento de GPU necessário sem suporte comercial.
O principal desafio é que o uso de sistemas como profundidade e pose geralmente requer uma familiaridade não trivial com interfaces de usuário complexas como a Comfyui. Portanto, é provável que um modelo funcional de código aberto desse tipo seja desenvolvido por empresas menores de VFX que não possuem recursos ou motivação para curar e treinar esse modelo em particular.
Por outro lado, os sistemas 'Rent-AI' orientados por API podem ser bem motivados para desenvolver métodos interpretativos mais simples e amigáveis para modelos com sistemas de controle auxiliares diretamente treinados.
** Clique para reproduzir. De profundidade+controles de texto impostos em uma geração de vídeo usando FullDit. **
*Os autores não especificam nenhum modelo básico conhecido (ou seja, sdxl, etc.)*
** Publicado pela primeira vez quinta -feira, 27 de março de 2025 **












