La génération de vidéos AI se déplace vers un contrôle complet
18 avril 2025
RyanLopez
23
Des modèles de fondations vidéo comme Hunyuan et WAN 2.1 ont fait des progrès importants, mais ils échouent souvent en ce qui concerne le contrôle détaillé requis dans la production de films et de télévision, en particulier dans le domaine des effets visuels (VFX). Dans les studios VFX professionnels, ces modèles, ainsi que des modèles antérieurs basés sur l'image comme STABLE DIFUSION, KANDINSKY et FLUX, sont utilisés en conjonction avec une suite d'outils conçus pour affiner leur production pour répondre aux exigences créatives spécifiques. Lorsqu'un directeur demande un ajustement, disant quelque chose comme: "Cela a fière allure, mais pouvons-nous en faire un peu plus [n]?", Il ne suffit pas de simplement dire que le modèle n'a pas la précision pour faire de tels ajustements.
Au lieu de cela, une équipe AI VFX utilisera une combinaison de CGI traditionnels et de techniques de composition, ainsi que des flux de travail développés sur mesure, pour repousser davantage les limites de la synthèse vidéo. Cette approche s'apparente à l'utilisation d'un navigateur Web par défaut comme Chrome; Il est fonctionnel hors de la boîte, mais pour vraiment l'adapter à vos besoins, vous devrez installer certains plugins.
Contrôler les monstres
Dans le domaine de la synthèse d'image basée sur la diffusion, l'un des systèmes tiers les plus cruciaux est ControlNet. Cette technique introduit un contrôle structuré aux modèles génératifs, permettant aux utilisateurs de guider la génération d'images ou de vidéos en utilisant des entrées supplémentaires telles que des cartes Edge, des cartes de profondeur ou des informations de pose.
* Les différentes méthodes de ControlNet permettent une profondeur> Image (rangée supérieure), une segmentation sémantique> Image (en bas à gauche) et une génération d'image guidée par la pose d'humains et d'animaux (en bas à gauche). *
ControlNet ne s'appuie pas uniquement sur les invites de texte; Il utilise des branches ou des adaptateurs de réseau neuronal distincts pour traiter ces signaux de conditionnement tout en maintenant les capacités génératives du modèle de base. Cela permet des sorties hautement personnalisées qui s'alignent étroitement avec les spécifications de l'utilisateur, ce qui le rend inestimable pour les applications nécessitant un contrôle précis de la composition, de la structure ou du mouvement.
* Avec une pose de guidage, une variété de types de sortie précis peuvent être obtenus via ControlNet. * Source: https://arxiv.org/pdf/2302.05543
Cependant, ces systèmes basés sur les adaptateurs, qui fonctionnent à l'extérieur sur un ensemble de processus neuronaux axés sur le plan interne, sont livrés avec plusieurs inconvénients. Les adaptateurs sont formés indépendamment, ce qui peut entraîner des conflits de branche lorsque plusieurs adaptateurs sont combinés, ce qui entraîne souvent des générations de qualité inférieure. Ils introduisent également la redondance des paramètres, nécessitant des ressources de calcul et de la mémoire supplémentaires pour chaque adaptateur, ce qui rend la mise à l'échelle inefficace. De plus, malgré leur flexibilité, les adaptateurs donnent souvent des résultats sous-optimaux par rapport aux modèles entièrement affinés pour la génération multi-conditions. Ces problèmes peuvent rendre les méthodes basées sur l'adaptateur moins efficaces pour les tâches qui nécessitent l'intégration transparente de plusieurs signaux de contrôle.
Idéalement, les capacités de ControlNet seraient nativement intégrées dans le modèle de manière modulaire, permettant de futures innovations telles que la génération vidéo / audio simultanée ou les capacités natives de synchronisation labiale. Actuellement, chaque fonctionnalité supplémentaire devient une tâche de post-production ou une procédure non native qui doit naviguer dans les poids sensibles du modèle de fondation.
Plein
Entrez Fulldit, une nouvelle approche de la Chine qui intègre les fonctionnalités de style ControlNet directement dans un modèle vidéo génératif pendant la formation, plutôt que de les traiter comme une réflexion après coup.
* Du nouveau document: l'approche Fulldit peut incorporer l'imposition d'identité, la profondeur et le mouvement de la caméra dans une génération native, et peut invoquer n'importe quelle combinaison de celles-ci à la fois. * Source: https://arxiv.org/pdf/2503.19907
Fulldit, tel que décrit dans l'article intitulé ** Fulldit: Modèle de fondation vidéo multi-tâches avec une attention totale **, intègre des conditions multi-tâches telles que le transfert d'identité, la cartographie en profondeur et le mouvement de la caméra dans le cœur d'un modèle vidéo générateur formé. Les auteurs ont développé un modèle de prototype et accompagnant des clips vidéo disponibles sur un site de projet.
** Cliquez pour jouer. Exemples d'imposition d'utilisateurs de style ControlNet avec seulement un modèle de fondation entraîné natif. ** Source: https://fulldit.github.io/
Les auteurs présentent Fulldit en tant que preuve de concept pour les modèles de texte à video natif (T2V) et d'image à vidéo (I2V) qui offrent aux utilisateurs plus de contrôle qu'une simple invite d'image ou de texte. Comme il n'existe aucun modèle similaire, les chercheurs ont créé une nouvelle référence appelée ** Fullbench ** pour évaluer les vidéos multi-tâches, affirmant les performances de pointe dans leurs tests conçus. Cependant, l'objectivité de Fullbench, conçue par les auteurs elles-mêmes, reste non testée et son ensemble de données de 1 400 cas peut être trop limité pour des conclusions plus larges.
L'aspect le plus intrigant de l'architecture de Fulldit est son potentiel d'incorporer de nouveaux types de contrôle. Les auteurs notent:
** 'Dans ce travail, nous explorons uniquement les conditions de contrôle de la caméra, de l'identité et des informations de profondeur. Nous n'avons pas étudié davantage d'autres conditions et modalités telles que l'audio, la parole, le nuage de points, les boîtes de délimitation d'objets, le flux optique, etc. Bien que la conception de Fulldit puisse intégrer de manière transparente d'autres modalités avec une modification de l'architecture minimale, comment s'adapter rapidement et rentable à adapter les modèles existants à de nouvelles conditions et aux modélités est toujours une question importante qui garantit une exploration plus approfondie. '**
Alors que Fulldit représente un pas en avant dans la génération de vidéos multi-tâches, il s'appuie sur des architectures existantes plutôt que d'introduire un nouveau paradigme. Néanmoins, il se distingue comme le seul modèle de fondation vidéo avec des fonctionnalités de style ControlNet nativement intégré, et son architecture est conçue pour s'adapter aux innovations futures.
** Cliquez pour jouer. Exemples de mouvements de caméra contrôlés par l'utilisateur, du site du projet. **
L'article, rédigé par neuf chercheurs de Kuaishou Technology et de l'Université chinoise de Hong Kong, est intitulé ** Fulldit: modèle de fondation génératif vidéo multi-tâches avec une attention totale **. La page du projet et les nouvelles données de référence sont disponibles chez Hugging Face.
Méthode
Le mécanisme d'attention unifié de Fulldit est conçu pour améliorer l'apprentissage de la représentation intermodale en capturant les relations spatiales et temporelles entre les conditions.
* Selon le nouvel article, Fulldit intègre plusieurs conditions d'entrée grâce à une auto-atténuer complète, en les convertissant en une séquence unifiée. En revanche, les modèles basés sur l'adaptateur (à gauche le plus ci-dessus) utilisent des modules distincts pour chaque entrée, conduisant à la redondance, aux conflits et aux performances plus faibles. *
Contrairement aux configurations basées sur l'adaptateur qui traitent chaque flux d'entrée séparément, la structure d'attention partagée de Fulldit évite les conflits de branche et réduit les surcharges des paramètres. Les auteurs affirment que l'architecture peut évoluer vers de nouveaux types d'entrée sans refonte majeure et que le schéma du modèle montre des signes de généralisation aux combinaisons de condition non observées pendant l'entraînement, telles que la liaison du mouvement de la caméra avec l'identité du caractère.
** Cliquez pour jouer. Exemples de génération d'identité à partir du site du projet **.
Dans l'architecture de Fulldit, toutes les entrées de conditionnement - telles que le texte, le mouvement de la caméra, l'identité et la profondeur - sont d'abord converties en format de jeton unifié. Ces jetons sont ensuite concaténés en une seule séquence longue, traitée à travers une pile de couches de transformateur en utilisant une auto-attention complète. Cette approche suit des œuvres antérieures comme le plan ouvert et le film de films en Open-Sora et le film.
Cette conception permet au modèle d'apprendre des relations temporelles et spatiales conjointement dans toutes les conditions. Chaque bloc de transformateur fonctionne sur toute la séquence, permettant des interactions dynamiques entre les modalités sans s'appuyer sur des modules distincts pour chaque entrée. L'architecture est conçue pour être extensible, ce qui facilite l'intégration des signaux de contrôle supplémentaires à l'avenir sans changements structurels majeurs.
Le pouvoir de trois
Fulldit convertit chaque signal de contrôle en un format de jeton standardisé afin que toutes les conditions puissent être traitées ensemble dans un cadre d'attention unifié. Pour le mouvement de la caméra, le modèle code une séquence de paramètres extrinsèques, tels que la position et l'orientation - pour chaque trame. Ces paramètres sont horodgiens et projetés dans des vecteurs d'intégration qui reflètent la nature temporelle du signal.
Les informations d'identité sont traitées différemment, car elles sont intrinsèquement spatiales plutôt que temporelles. Le modèle utilise des cartes d'identité qui indiquent quels caractères sont présents dans quelles parties de chaque trame. Ces cartes sont divisées en patchs, chaque patch projeté en une incorporation qui capture des indices d'identité spatiale, permettant au modèle d'associer des régions spécifiques du cadre à des entités spécifiques.
La profondeur est un signal spatio-temporel, et le modèle le gère en divisant des vidéos de profondeur en patchs 3D qui s'étendent à la fois à l'espace et au temps. Ces patchs sont ensuite intégrés d'une manière qui préserve leur structure à travers les trames.
Une fois intégrés, tous ces jetons de condition (caméra, identité et profondeur) sont concaténés en une seule séquence longue, permettant à Fulldit de les traiter ensemble en utilisant une auto-conservation complète. Cette représentation partagée permet au modèle d'apprendre des interactions entre les modalités et dans le temps sans compter sur des flux de traitement isolés.
Données et tests
L'approche de formation de Fulldit reposait sur des ensembles de données annotés sélectivement adaptés à chaque type de conditionnement, plutôt que d'obliger toutes les conditions à être présentes simultanément.
Pour les conditions textuelles, l'initiative suit l'approche de sous-titrage structurée décrite dans le projet Miradata.
* Collection vidéo et pipeline d'annotation du projet Miradata. * Source: https://arxiv.org/pdf/2407.06358
Pour le mouvement de la caméra, l'ensemble de données RealEstate10k était la principale source de données, en raison de ses annotations à vérification au sol de haute qualité des paramètres de la caméra. Cependant, les auteurs ont observé que l'entraînement exclusivement sur des ensembles de données de caméras à scène statique comme RealEstate10k avait tendance à réduire les mouvements d'objets dynamiques et humains dans des vidéos générées. Pour contrer cela, ils ont effectué un réglage fin supplémentaire à l'aide de ensembles de données internes qui comprenaient des mouvements de caméra plus dynamiques.
Des annotations d'identité ont été générées à l'aide du pipeline développé pour le projet ConceptMaster, qui a permis un filtrage et une extraction efficaces des informations d'identité à grain fin.
* Le framework conceptmaster est conçu pour résoudre les problèmes de découplage d'identité tout en préservant la fidélité des concepts dans des vidéos personnalisées. * Source: https://arxiv.org/pdf/2501.04698
Des annotations de profondeur ont été obtenues à partir de l'ensemble de données PANDA-70M en utilisant n'importe quoi.
Optimisation par l'ordre des données
Les auteurs ont également mis en œuvre un calendrier de formation progressif, introduisant des conditions plus difficiles plus tôt dans la formation pour garantir que le modèle acquise des représentations robustes avant d'ajouter des tâches plus simples. L'ordre de formation est passé du texte aux conditions de la caméra, puis aux identités et enfin en profondeur, avec des tâches plus faciles généralement introduites plus tard et avec moins d'exemples.
Les auteurs mettent l'accent sur la valeur de la commande de la charge de travail de cette manière:
** 'Pendant la phase de pré-formation, nous avons noté que les tâches plus difficiles exigent un temps de formation prolongé et devraient être introduites plus tôt dans le processus d'apprentissage. Ces tâches difficiles impliquent des distributions de données complexes qui diffèrent considérablement de la vidéo de sortie, ce qui nécessite que le modèle possède une capacité suffisante pour les capturer et les représenter avec précision. **
** 'Inversement, l'introduction de tâches plus faciles trop tôt peut conduire le modèle à hiérarchiser les apprentissage en premier, car ils fournissent une rétroaction d'optimisation plus immédiate, qui entrave la convergence de tâches plus difficiles.' **
* Une illustration de l'ordre de formation des données adopté par les chercheurs, le rouge indiquant un plus grand volume de données. *
Après la pré-formation initiale, une étape finale du réglage fin a affiné le modèle pour améliorer la qualité visuelle et la dynamique de mouvement. Par la suite, la formation a suivi celle d'un cadre de diffusion standard: le bruit ajouté aux lameurs vidéo, et le modèle apprenant à le prédire et à le supprimer, en utilisant les jetons de condition intégrés comme guidage.
Pour évaluer efficacement Fulldit et fournir une comparaison équitable avec les méthodes existantes, et en l'absence de toute autre référence apposée, les auteurs ont introduit ** Fullbench **, une suite de référence organisée composée de 1 400 cas de test distincts.
* Une instance d'explorateur de données pour la nouvelle référence Fullbench. * Source: https://huggingface.co/datasets/kwaivgi/fullbench
Chaque point de données a fourni des annotations de vérité au sol pour divers signaux de conditionnement, y compris le mouvement de la caméra, l'identité et la profondeur.
Métrique
Les auteurs ont évalué Fulldit à l'aide de dix mesures couvrant cinq aspects principaux de la performance: l'alignement du texte, le contrôle de la caméra, la similitude de l'identité, la précision de la profondeur et la qualité vidéo générale.
L'alignement du texte a été mesuré à l'aide de la similitude des clips, tandis que le contrôle de la caméra a été évalué par l'erreur de rotation (RoTERR), l'erreur de traduction (transerr) et la cohérence du mouvement de la caméra (CAMMC), suivant l'approche de Cami2v (dans le projet Cameractrl).
La similitude de l'identité a été évaluée à l'aide de DINO-I et CLIP-I, et la précision du contrôle de la profondeur a été quantifiée en utilisant une erreur absolue moyenne (MAE).
La qualité vidéo a été jugée avec trois mesures de Miradata: similitude de clip au niveau du cadre pour la douceur; Distance de mouvement optique basée sur l'écoulement pour la dynamique; et les scores esthétiques de LAION pour l'attrait visuel.
Entraînement
Les auteurs ont formé Fulldit à l'aide d'un modèle de diffusion de texte interne (non divulgué) interne contenant environ un milliard de paramètres. Ils ont intentionnellement choisi une taille de paramètre modeste pour maintenir l'équité en comparaison avec les méthodes antérieures et assurer la reproductibilité.
Étant donné que les vidéos de formation différaient en longueur et en résolution, les auteurs ont standardisé chaque lot en redimensionnant et en rembourrant des vidéos à une résolution commune, en échantillonnant 77 images par séquence, et en utilisant des masques d'attention et de perte appliqués pour optimiser l'efficacité de la formation.
L'optimiseur ADAM a été utilisé à un taux d'apprentissage de 1 × 10 -5 dans un groupe de 64 GPU NVIDIA H800, pour un total combiné de 5120 Go de VRAM (considérez que dans les communautés de synthèse des enthousiastes, 24 Go sur un RTX 3090 est toujours considérée comme une norme luxueuse).
Le modèle a été formé pendant environ 32 000 étapes, incorporant jusqu'à trois identités par vidéo, ainsi que 20 images de conditions de caméra et 21 images de conditions de profondeur, toutes deux échantillonnées à partir du total de 77 images.
Pour l'inférence, le modèle a généré des vidéos à une résolution de 384 × 672 pixels (environ cinq secondes à 15 images par seconde) avec 50 étapes d'inférence de diffusion et une échelle de guidage sans classificateur de cinq.
Méthodes antérieures
Pour l'évaluation de la caméra à la vidéo, les auteurs ont comparé Fulldit contre MotionCtrl, CamerAractrl et Cami2v, tous les modèles formés à l'aide de l'ensemble de données RealEstate10k pour assurer la cohérence et l'équité.
Dans la génération conditionnée par l'identité, comme aucun modèle d'identité à source ouverte comparable n'était disponible, le modèle a été comparé au modèle concept-paramètre 1B-paramètre, en utilisant les mêmes données de formation et architecture.
Pour les tâches de profondeur à vidéo, des comparaisons ont été faites avec Ctrl-Adapter et ControlVideo.
* Résultats quantitatifs pour la génération vidéo à une seule tâche. Fulldit a été comparé à MotionCtrl, Cameractrl et Cami2v pour la génération de la caméra à la vidéo; ConceptMaster (version de paramètre 1B) pour l'identité-video; et Ctrl-adapter et ControlVideo pour la profondeur-vidéo. Tous les modèles ont été évalués à l'aide de leurs paramètres par défaut. Pour la cohérence, 16 trames ont été uniformément échantillonnées à partir de chaque méthode, correspondant à la longueur de sortie des modèles antérieurs. *
Les résultats indiquent que Fulldit, malgré la gestion de plusieurs signaux de conditionnement simultanément, a atteint des performances de pointe dans les mesures liées au texte, au mouvement de la caméra, à l'identité et aux contrôles de profondeur.
Dans les métriques de qualité globale, le système a généralement surpassé d'autres méthodes, bien que sa douceur soit légèrement inférieure à celle de Conceptmaster. Ici, les auteurs commentent:
** 'La douceur de Fulldit est légèrement inférieure à celle de Conceptmaster, car le calcul de la douceur est basé sur la similitude des clips entre les cadres adjacents. Comme Fulldit présente une dynamique significativement plus grande par rapport à ConceptMaster, la métrique de douceur est affectée par les grandes variations entre les cadres adjacents. **
** 'Pour le score esthétique, puisque le modèle de notation favorise les images dans le style de peinture et ControlVideo génère généralement des vidéos dans ce style, il obtient un score élevé en esthétique.' **
En ce qui concerne la comparaison qualitative, il pourrait être préférable de se référer aux exemples de vidéos sur le site du projet Fulldit, car les exemples PDF sont inévitablement statiques (et également trop grands pour se reproduire entièrement ici).
* La première section du qualitatif entraîne le PDF. Veuillez vous référer au papier source pour les exemples supplémentaires, qui sont trop étendus pour se reproduire ici. *
Les auteurs commentent:
** 'Fulldit démontre une préservation d'identité supérieure et génère des vidéos avec une meilleure dynamique et une meilleure qualité visuelle par rapport à [ConceptMaster]. Étant donné que ConceptMaster et Fulldit sont formés sur la même épine dorsale, cela met en évidence l'efficacité de l'injection de condition avec toute l'attention. **
** '… Les [autres] résultats démontrent la contrôlabilité supérieure et la qualité de génération de Fulldit par rapport à la profondeur à la vidéo et aux méthodes de la caméra à la vidéo.' **
* Une section des exemples du PDF de sortie de Fulldit avec plusieurs signaux. Veuillez vous référer au document source et au site du projet pour des exemples supplémentaires. *
Conclusion
Fulldit représente une étape passionnante vers un modèle de fondation vidéo plus complet, mais la question demeure de savoir si la demande de fonctionnalités de style ControlNet justifie leur mise en œuvre à grande échelle, en particulier pour les projets open source. Ces projets auraient du mal à obtenir le vaste pouvoir de traitement du GPU requis sans soutien commercial.
Le principal défi est que l'utilisation de systèmes comme la profondeur et la pose nécessite généralement une familiarité non triviale avec des interfaces utilisateur complexes comme Comfyui. Par conséquent, un modèle fonctionnel open source de ce type est plus susceptible d'être développé par de plus petites entreprises VFX qui n'ont pas les ressources ou la motivation pour organiser et former un tel modèle en privé.
D'un autre côté, les systèmes «Rent-an-Aai» dirigés par API peuvent être bien motivés pour développer des méthodes d'interprétation plus simples et plus conviviales pour les modèles avec des systèmes de contrôle auxiliaires directement formés.
** Cliquez pour jouer. Profondeur + commandes de texte imposées à une génération de vidéos à l'aide de Fulldit. **
* Les auteurs ne spécifient aucun modèle de base connu (c'est-à-dire SDXL, etc.) *
** Publié pour la première fois le jeudi 27 mars 2025 **
Article connexe
Unveiling Subtle Yet Impactful AI Modifications in Authentic Video Content
In 2019, a deceptive video of Nancy Pelosi, then Speaker of the US House of Representatives, circulated widely. The video, which was edited to make her appear intoxicated, was a stark reminder of how easily manipulated media can mislead the public. Despite its simplicity, this incident highlighted t
OpenAI plans to bring Sora’s video generator to ChatGPT
OpenAI plans to integrate its AI video generation tool, Sora, into its popular consumer chatbot, ChatGPT. This was revealed by company leaders during a recent office hours session on Discord. Currently, Sora is accessible only through a dedicated web app launched by OpenAI in December, allowing user
ByteDance Joins Deepfake AI Video Market
ByteDance, the folks behind TikTok, have just shown off their latest AI creation, OmniHuman-1, and it's pretty mind-blowing. This new system can whip up super realistic videos, and all it needs is just a single reference image and some audio. What's cool is you can tweak the video's aspect ratio and
commentaires (0)
0/200






Des modèles de fondations vidéo comme Hunyuan et WAN 2.1 ont fait des progrès importants, mais ils échouent souvent en ce qui concerne le contrôle détaillé requis dans la production de films et de télévision, en particulier dans le domaine des effets visuels (VFX). Dans les studios VFX professionnels, ces modèles, ainsi que des modèles antérieurs basés sur l'image comme STABLE DIFUSION, KANDINSKY et FLUX, sont utilisés en conjonction avec une suite d'outils conçus pour affiner leur production pour répondre aux exigences créatives spécifiques. Lorsqu'un directeur demande un ajustement, disant quelque chose comme: "Cela a fière allure, mais pouvons-nous en faire un peu plus [n]?", Il ne suffit pas de simplement dire que le modèle n'a pas la précision pour faire de tels ajustements.
Au lieu de cela, une équipe AI VFX utilisera une combinaison de CGI traditionnels et de techniques de composition, ainsi que des flux de travail développés sur mesure, pour repousser davantage les limites de la synthèse vidéo. Cette approche s'apparente à l'utilisation d'un navigateur Web par défaut comme Chrome; Il est fonctionnel hors de la boîte, mais pour vraiment l'adapter à vos besoins, vous devrez installer certains plugins.
Contrôler les monstres
Dans le domaine de la synthèse d'image basée sur la diffusion, l'un des systèmes tiers les plus cruciaux est ControlNet. Cette technique introduit un contrôle structuré aux modèles génératifs, permettant aux utilisateurs de guider la génération d'images ou de vidéos en utilisant des entrées supplémentaires telles que des cartes Edge, des cartes de profondeur ou des informations de pose.
* Les différentes méthodes de ControlNet permettent une profondeur> Image (rangée supérieure), une segmentation sémantique> Image (en bas à gauche) et une génération d'image guidée par la pose d'humains et d'animaux (en bas à gauche). *
ControlNet ne s'appuie pas uniquement sur les invites de texte; Il utilise des branches ou des adaptateurs de réseau neuronal distincts pour traiter ces signaux de conditionnement tout en maintenant les capacités génératives du modèle de base. Cela permet des sorties hautement personnalisées qui s'alignent étroitement avec les spécifications de l'utilisateur, ce qui le rend inestimable pour les applications nécessitant un contrôle précis de la composition, de la structure ou du mouvement.
* Avec une pose de guidage, une variété de types de sortie précis peuvent être obtenus via ControlNet. * Source: https://arxiv.org/pdf/2302.05543
Cependant, ces systèmes basés sur les adaptateurs, qui fonctionnent à l'extérieur sur un ensemble de processus neuronaux axés sur le plan interne, sont livrés avec plusieurs inconvénients. Les adaptateurs sont formés indépendamment, ce qui peut entraîner des conflits de branche lorsque plusieurs adaptateurs sont combinés, ce qui entraîne souvent des générations de qualité inférieure. Ils introduisent également la redondance des paramètres, nécessitant des ressources de calcul et de la mémoire supplémentaires pour chaque adaptateur, ce qui rend la mise à l'échelle inefficace. De plus, malgré leur flexibilité, les adaptateurs donnent souvent des résultats sous-optimaux par rapport aux modèles entièrement affinés pour la génération multi-conditions. Ces problèmes peuvent rendre les méthodes basées sur l'adaptateur moins efficaces pour les tâches qui nécessitent l'intégration transparente de plusieurs signaux de contrôle.
Idéalement, les capacités de ControlNet seraient nativement intégrées dans le modèle de manière modulaire, permettant de futures innovations telles que la génération vidéo / audio simultanée ou les capacités natives de synchronisation labiale. Actuellement, chaque fonctionnalité supplémentaire devient une tâche de post-production ou une procédure non native qui doit naviguer dans les poids sensibles du modèle de fondation.
Plein
Entrez Fulldit, une nouvelle approche de la Chine qui intègre les fonctionnalités de style ControlNet directement dans un modèle vidéo génératif pendant la formation, plutôt que de les traiter comme une réflexion après coup.
* Du nouveau document: l'approche Fulldit peut incorporer l'imposition d'identité, la profondeur et le mouvement de la caméra dans une génération native, et peut invoquer n'importe quelle combinaison de celles-ci à la fois. * Source: https://arxiv.org/pdf/2503.19907
Fulldit, tel que décrit dans l'article intitulé ** Fulldit: Modèle de fondation vidéo multi-tâches avec une attention totale **, intègre des conditions multi-tâches telles que le transfert d'identité, la cartographie en profondeur et le mouvement de la caméra dans le cœur d'un modèle vidéo générateur formé. Les auteurs ont développé un modèle de prototype et accompagnant des clips vidéo disponibles sur un site de projet.
** Cliquez pour jouer. Exemples d'imposition d'utilisateurs de style ControlNet avec seulement un modèle de fondation entraîné natif. ** Source: https://fulldit.github.io/
Les auteurs présentent Fulldit en tant que preuve de concept pour les modèles de texte à video natif (T2V) et d'image à vidéo (I2V) qui offrent aux utilisateurs plus de contrôle qu'une simple invite d'image ou de texte. Comme il n'existe aucun modèle similaire, les chercheurs ont créé une nouvelle référence appelée ** Fullbench ** pour évaluer les vidéos multi-tâches, affirmant les performances de pointe dans leurs tests conçus. Cependant, l'objectivité de Fullbench, conçue par les auteurs elles-mêmes, reste non testée et son ensemble de données de 1 400 cas peut être trop limité pour des conclusions plus larges.
L'aspect le plus intrigant de l'architecture de Fulldit est son potentiel d'incorporer de nouveaux types de contrôle. Les auteurs notent:
** 'Dans ce travail, nous explorons uniquement les conditions de contrôle de la caméra, de l'identité et des informations de profondeur. Nous n'avons pas étudié davantage d'autres conditions et modalités telles que l'audio, la parole, le nuage de points, les boîtes de délimitation d'objets, le flux optique, etc. Bien que la conception de Fulldit puisse intégrer de manière transparente d'autres modalités avec une modification de l'architecture minimale, comment s'adapter rapidement et rentable à adapter les modèles existants à de nouvelles conditions et aux modélités est toujours une question importante qui garantit une exploration plus approfondie. '**
Alors que Fulldit représente un pas en avant dans la génération de vidéos multi-tâches, il s'appuie sur des architectures existantes plutôt que d'introduire un nouveau paradigme. Néanmoins, il se distingue comme le seul modèle de fondation vidéo avec des fonctionnalités de style ControlNet nativement intégré, et son architecture est conçue pour s'adapter aux innovations futures.
** Cliquez pour jouer. Exemples de mouvements de caméra contrôlés par l'utilisateur, du site du projet. **
L'article, rédigé par neuf chercheurs de Kuaishou Technology et de l'Université chinoise de Hong Kong, est intitulé ** Fulldit: modèle de fondation génératif vidéo multi-tâches avec une attention totale **. La page du projet et les nouvelles données de référence sont disponibles chez Hugging Face.
Méthode
Le mécanisme d'attention unifié de Fulldit est conçu pour améliorer l'apprentissage de la représentation intermodale en capturant les relations spatiales et temporelles entre les conditions.
* Selon le nouvel article, Fulldit intègre plusieurs conditions d'entrée grâce à une auto-atténuer complète, en les convertissant en une séquence unifiée. En revanche, les modèles basés sur l'adaptateur (à gauche le plus ci-dessus) utilisent des modules distincts pour chaque entrée, conduisant à la redondance, aux conflits et aux performances plus faibles. *
Contrairement aux configurations basées sur l'adaptateur qui traitent chaque flux d'entrée séparément, la structure d'attention partagée de Fulldit évite les conflits de branche et réduit les surcharges des paramètres. Les auteurs affirment que l'architecture peut évoluer vers de nouveaux types d'entrée sans refonte majeure et que le schéma du modèle montre des signes de généralisation aux combinaisons de condition non observées pendant l'entraînement, telles que la liaison du mouvement de la caméra avec l'identité du caractère.
** Cliquez pour jouer. Exemples de génération d'identité à partir du site du projet **.
Dans l'architecture de Fulldit, toutes les entrées de conditionnement - telles que le texte, le mouvement de la caméra, l'identité et la profondeur - sont d'abord converties en format de jeton unifié. Ces jetons sont ensuite concaténés en une seule séquence longue, traitée à travers une pile de couches de transformateur en utilisant une auto-attention complète. Cette approche suit des œuvres antérieures comme le plan ouvert et le film de films en Open-Sora et le film.
Cette conception permet au modèle d'apprendre des relations temporelles et spatiales conjointement dans toutes les conditions. Chaque bloc de transformateur fonctionne sur toute la séquence, permettant des interactions dynamiques entre les modalités sans s'appuyer sur des modules distincts pour chaque entrée. L'architecture est conçue pour être extensible, ce qui facilite l'intégration des signaux de contrôle supplémentaires à l'avenir sans changements structurels majeurs.
Le pouvoir de trois
Fulldit convertit chaque signal de contrôle en un format de jeton standardisé afin que toutes les conditions puissent être traitées ensemble dans un cadre d'attention unifié. Pour le mouvement de la caméra, le modèle code une séquence de paramètres extrinsèques, tels que la position et l'orientation - pour chaque trame. Ces paramètres sont horodgiens et projetés dans des vecteurs d'intégration qui reflètent la nature temporelle du signal.
Les informations d'identité sont traitées différemment, car elles sont intrinsèquement spatiales plutôt que temporelles. Le modèle utilise des cartes d'identité qui indiquent quels caractères sont présents dans quelles parties de chaque trame. Ces cartes sont divisées en patchs, chaque patch projeté en une incorporation qui capture des indices d'identité spatiale, permettant au modèle d'associer des régions spécifiques du cadre à des entités spécifiques.
La profondeur est un signal spatio-temporel, et le modèle le gère en divisant des vidéos de profondeur en patchs 3D qui s'étendent à la fois à l'espace et au temps. Ces patchs sont ensuite intégrés d'une manière qui préserve leur structure à travers les trames.
Une fois intégrés, tous ces jetons de condition (caméra, identité et profondeur) sont concaténés en une seule séquence longue, permettant à Fulldit de les traiter ensemble en utilisant une auto-conservation complète. Cette représentation partagée permet au modèle d'apprendre des interactions entre les modalités et dans le temps sans compter sur des flux de traitement isolés.
Données et tests
L'approche de formation de Fulldit reposait sur des ensembles de données annotés sélectivement adaptés à chaque type de conditionnement, plutôt que d'obliger toutes les conditions à être présentes simultanément.
Pour les conditions textuelles, l'initiative suit l'approche de sous-titrage structurée décrite dans le projet Miradata.
* Collection vidéo et pipeline d'annotation du projet Miradata. * Source: https://arxiv.org/pdf/2407.06358
Pour le mouvement de la caméra, l'ensemble de données RealEstate10k était la principale source de données, en raison de ses annotations à vérification au sol de haute qualité des paramètres de la caméra. Cependant, les auteurs ont observé que l'entraînement exclusivement sur des ensembles de données de caméras à scène statique comme RealEstate10k avait tendance à réduire les mouvements d'objets dynamiques et humains dans des vidéos générées. Pour contrer cela, ils ont effectué un réglage fin supplémentaire à l'aide de ensembles de données internes qui comprenaient des mouvements de caméra plus dynamiques.
Des annotations d'identité ont été générées à l'aide du pipeline développé pour le projet ConceptMaster, qui a permis un filtrage et une extraction efficaces des informations d'identité à grain fin.
* Le framework conceptmaster est conçu pour résoudre les problèmes de découplage d'identité tout en préservant la fidélité des concepts dans des vidéos personnalisées. * Source: https://arxiv.org/pdf/2501.04698
Des annotations de profondeur ont été obtenues à partir de l'ensemble de données PANDA-70M en utilisant n'importe quoi.
Optimisation par l'ordre des données
Les auteurs ont également mis en œuvre un calendrier de formation progressif, introduisant des conditions plus difficiles plus tôt dans la formation pour garantir que le modèle acquise des représentations robustes avant d'ajouter des tâches plus simples. L'ordre de formation est passé du texte aux conditions de la caméra, puis aux identités et enfin en profondeur, avec des tâches plus faciles généralement introduites plus tard et avec moins d'exemples.
Les auteurs mettent l'accent sur la valeur de la commande de la charge de travail de cette manière:
** 'Pendant la phase de pré-formation, nous avons noté que les tâches plus difficiles exigent un temps de formation prolongé et devraient être introduites plus tôt dans le processus d'apprentissage. Ces tâches difficiles impliquent des distributions de données complexes qui diffèrent considérablement de la vidéo de sortie, ce qui nécessite que le modèle possède une capacité suffisante pour les capturer et les représenter avec précision. **
** 'Inversement, l'introduction de tâches plus faciles trop tôt peut conduire le modèle à hiérarchiser les apprentissage en premier, car ils fournissent une rétroaction d'optimisation plus immédiate, qui entrave la convergence de tâches plus difficiles.' **
* Une illustration de l'ordre de formation des données adopté par les chercheurs, le rouge indiquant un plus grand volume de données. *
Après la pré-formation initiale, une étape finale du réglage fin a affiné le modèle pour améliorer la qualité visuelle et la dynamique de mouvement. Par la suite, la formation a suivi celle d'un cadre de diffusion standard: le bruit ajouté aux lameurs vidéo, et le modèle apprenant à le prédire et à le supprimer, en utilisant les jetons de condition intégrés comme guidage.
Pour évaluer efficacement Fulldit et fournir une comparaison équitable avec les méthodes existantes, et en l'absence de toute autre référence apposée, les auteurs ont introduit ** Fullbench **, une suite de référence organisée composée de 1 400 cas de test distincts.
* Une instance d'explorateur de données pour la nouvelle référence Fullbench. * Source: https://huggingface.co/datasets/kwaivgi/fullbench
Chaque point de données a fourni des annotations de vérité au sol pour divers signaux de conditionnement, y compris le mouvement de la caméra, l'identité et la profondeur.
Métrique
Les auteurs ont évalué Fulldit à l'aide de dix mesures couvrant cinq aspects principaux de la performance: l'alignement du texte, le contrôle de la caméra, la similitude de l'identité, la précision de la profondeur et la qualité vidéo générale.
L'alignement du texte a été mesuré à l'aide de la similitude des clips, tandis que le contrôle de la caméra a été évalué par l'erreur de rotation (RoTERR), l'erreur de traduction (transerr) et la cohérence du mouvement de la caméra (CAMMC), suivant l'approche de Cami2v (dans le projet Cameractrl).
La similitude de l'identité a été évaluée à l'aide de DINO-I et CLIP-I, et la précision du contrôle de la profondeur a été quantifiée en utilisant une erreur absolue moyenne (MAE).
La qualité vidéo a été jugée avec trois mesures de Miradata: similitude de clip au niveau du cadre pour la douceur; Distance de mouvement optique basée sur l'écoulement pour la dynamique; et les scores esthétiques de LAION pour l'attrait visuel.
Entraînement
Les auteurs ont formé Fulldit à l'aide d'un modèle de diffusion de texte interne (non divulgué) interne contenant environ un milliard de paramètres. Ils ont intentionnellement choisi une taille de paramètre modeste pour maintenir l'équité en comparaison avec les méthodes antérieures et assurer la reproductibilité.
Étant donné que les vidéos de formation différaient en longueur et en résolution, les auteurs ont standardisé chaque lot en redimensionnant et en rembourrant des vidéos à une résolution commune, en échantillonnant 77 images par séquence, et en utilisant des masques d'attention et de perte appliqués pour optimiser l'efficacité de la formation.
L'optimiseur ADAM a été utilisé à un taux d'apprentissage de 1 × 10 -5 dans un groupe de 64 GPU NVIDIA H800, pour un total combiné de 5120 Go de VRAM (considérez que dans les communautés de synthèse des enthousiastes, 24 Go sur un RTX 3090 est toujours considérée comme une norme luxueuse).
Le modèle a été formé pendant environ 32 000 étapes, incorporant jusqu'à trois identités par vidéo, ainsi que 20 images de conditions de caméra et 21 images de conditions de profondeur, toutes deux échantillonnées à partir du total de 77 images.
Pour l'inférence, le modèle a généré des vidéos à une résolution de 384 × 672 pixels (environ cinq secondes à 15 images par seconde) avec 50 étapes d'inférence de diffusion et une échelle de guidage sans classificateur de cinq.
Méthodes antérieures
Pour l'évaluation de la caméra à la vidéo, les auteurs ont comparé Fulldit contre MotionCtrl, CamerAractrl et Cami2v, tous les modèles formés à l'aide de l'ensemble de données RealEstate10k pour assurer la cohérence et l'équité.
Dans la génération conditionnée par l'identité, comme aucun modèle d'identité à source ouverte comparable n'était disponible, le modèle a été comparé au modèle concept-paramètre 1B-paramètre, en utilisant les mêmes données de formation et architecture.
Pour les tâches de profondeur à vidéo, des comparaisons ont été faites avec Ctrl-Adapter et ControlVideo.
* Résultats quantitatifs pour la génération vidéo à une seule tâche. Fulldit a été comparé à MotionCtrl, Cameractrl et Cami2v pour la génération de la caméra à la vidéo; ConceptMaster (version de paramètre 1B) pour l'identité-video; et Ctrl-adapter et ControlVideo pour la profondeur-vidéo. Tous les modèles ont été évalués à l'aide de leurs paramètres par défaut. Pour la cohérence, 16 trames ont été uniformément échantillonnées à partir de chaque méthode, correspondant à la longueur de sortie des modèles antérieurs. *
Les résultats indiquent que Fulldit, malgré la gestion de plusieurs signaux de conditionnement simultanément, a atteint des performances de pointe dans les mesures liées au texte, au mouvement de la caméra, à l'identité et aux contrôles de profondeur.
Dans les métriques de qualité globale, le système a généralement surpassé d'autres méthodes, bien que sa douceur soit légèrement inférieure à celle de Conceptmaster. Ici, les auteurs commentent:
** 'La douceur de Fulldit est légèrement inférieure à celle de Conceptmaster, car le calcul de la douceur est basé sur la similitude des clips entre les cadres adjacents. Comme Fulldit présente une dynamique significativement plus grande par rapport à ConceptMaster, la métrique de douceur est affectée par les grandes variations entre les cadres adjacents. **
** 'Pour le score esthétique, puisque le modèle de notation favorise les images dans le style de peinture et ControlVideo génère généralement des vidéos dans ce style, il obtient un score élevé en esthétique.' **
En ce qui concerne la comparaison qualitative, il pourrait être préférable de se référer aux exemples de vidéos sur le site du projet Fulldit, car les exemples PDF sont inévitablement statiques (et également trop grands pour se reproduire entièrement ici).
* La première section du qualitatif entraîne le PDF. Veuillez vous référer au papier source pour les exemples supplémentaires, qui sont trop étendus pour se reproduire ici. *
Les auteurs commentent:
** 'Fulldit démontre une préservation d'identité supérieure et génère des vidéos avec une meilleure dynamique et une meilleure qualité visuelle par rapport à [ConceptMaster]. Étant donné que ConceptMaster et Fulldit sont formés sur la même épine dorsale, cela met en évidence l'efficacité de l'injection de condition avec toute l'attention. **
** '… Les [autres] résultats démontrent la contrôlabilité supérieure et la qualité de génération de Fulldit par rapport à la profondeur à la vidéo et aux méthodes de la caméra à la vidéo.' **
* Une section des exemples du PDF de sortie de Fulldit avec plusieurs signaux. Veuillez vous référer au document source et au site du projet pour des exemples supplémentaires. *
Conclusion
Fulldit représente une étape passionnante vers un modèle de fondation vidéo plus complet, mais la question demeure de savoir si la demande de fonctionnalités de style ControlNet justifie leur mise en œuvre à grande échelle, en particulier pour les projets open source. Ces projets auraient du mal à obtenir le vaste pouvoir de traitement du GPU requis sans soutien commercial.
Le principal défi est que l'utilisation de systèmes comme la profondeur et la pose nécessite généralement une familiarité non triviale avec des interfaces utilisateur complexes comme Comfyui. Par conséquent, un modèle fonctionnel open source de ce type est plus susceptible d'être développé par de plus petites entreprises VFX qui n'ont pas les ressources ou la motivation pour organiser et former un tel modèle en privé.
D'un autre côté, les systèmes «Rent-an-Aai» dirigés par API peuvent être bien motivés pour développer des méthodes d'interprétation plus simples et plus conviviales pour les modèles avec des systèmes de contrôle auxiliaires directement formés.
** Cliquez pour jouer. Profondeur + commandes de texte imposées à une génération de vidéos à l'aide de Fulldit. **
* Les auteurs ne spécifient aucun modèle de base connu (c'est-à-dire SDXL, etc.) *
** Publié pour la première fois le jeudi 27 mars 2025 **












