Die KI -Videogenerierung bewegt sich in Richtung vollständiger Kontrolle
Video -Foundation -Modelle wie Hunyuan und Wan 2.1 haben erhebliche Fortschritte gemacht, aber sie fallen häufig in Bezug auf die detaillierte Kontrolle, die für die Film- und Fernsehproduktion erforderlich ist, insbesondere im Bereich der visuellen Effekte (VFX). In professionellen VFX-Studios werden diese Modelle zusammen mit früheren bildbasierten Modellen wie stabiler Diffusion, Kandinsky und Fluss in Verbindung mit einer Reihe von Tools verwendet, um ihre Leistung zu verfeinern, um spezifische kreative Anforderungen zu erfüllen. Wenn ein Direktor eine Änderung anfordert und etwas wie "das sieht großartig aus, aber können wir es ein bisschen mehr [n] machen?"
Stattdessen wird ein AI VFX-Team eine Kombination aus herkömmlichen CGI- und Kompositionstechniken sowie maßgeschneiderte Workflows verwenden, um die Grenzen der Videosynthese weiter zu überschreiten. Dieser Ansatz ähnelt der Verwendung eines Standard -Webbrowsers wie Chrome. Es ist funktional aus der Schachtel, aber es müssen einige Plugins installieren.
Steuerfreaks
Im Bereich der diffusionsbasierten Bildsynthese ist eines der wichtigsten Systeme von Drittanbietern ControlNet. Diese Technik führt strukturierte Steuerung in generative Modelle ein und ermöglicht es Benutzern, die Bild- oder Videogenerierung mit zusätzlichen Eingängen wie Edge -Karten, Tiefenkarten oder Poseninformationen zu leiten.
*Die verschiedenen Methoden von ControlNET ermöglichen Tiefe> Bild (obere Reihe), semantische Segmentierung> Bild (unten links) und posegesteuerte Bilderzeugung von Menschen und Tieren (unten links).*
ControlNET ist nicht nur auf Textaufforderungen angewiesen. Es verwendet separate neuronale Netzwerke oder Adapter, um diese Konditionierungssignale zu verarbeiten und gleichzeitig die generativen Funktionen des Basismodells beizubehalten. Dies ermöglicht hoch angepasste Ausgänge, die sich eng mit den Benutzerspezifikationen übereinstimmen, und machen sie für Anwendungen, die eine präzise Kontrolle über Zusammensetzung, Struktur oder Bewegung erfordern, von unschätzbarem Wert.
* Mit einer Leitpose kann eine Vielzahl genauer Ausgabetypen über ControlNET erhalten werden.* Quelle: https://arxiv.org/pdf/2302.05543
Diese auf Adapterbasis basierenden Systeme, die extern auf einer Reihe von intern ausgerichteten neuronalen Prozessen arbeiten, sind jedoch mehrere Nachteile ausgestattet. Adapter werden unabhängig geschult, was zu Zweigkonflikten führen kann, wenn mehrere Adapter kombiniert werden, was häufig zu Generationen von geringerer Qualität führt. Sie führen auch Parameter -Redundanz ein und erfordern zusätzliche Rechenressourcen und Speicher für jeden Adapter, wodurch die Skalierung ineffizient ist. Darüber hinaus liefern Adapter trotz ihrer Flexibilität häufig suboptimale Ergebnisse im Vergleich zu Modellen, die für die Erzeugung von Multi-Konditions vollständig fein abgestimmt sind. Diese Probleme können Adapter-basierte Methoden für Aufgaben weniger effektiv machen, die die nahtlose Integration mehrerer Kontrollsignale erfordern.
Im Idealfall würden die Funktionen von ControlNET nativ modular in das Modell integriert, was zukünftige Innovationen wie die gleichzeitige Video-/Audiogenerierung oder native Lippensynchronisierungsfunktionen ermöglicht. Derzeit wird jede zusätzliche Funktion entweder zu einer Postproduktionsaufgabe oder zu einem nicht einheimischen Verfahren, das durch die sensiblen Gewichte des Foundation-Modells navigieren muss.
Fulldit
Geben Sie Fulldit, einen neuen Ansatz aus China, der Features im ControlNET-Stil direkt in ein generatives Videomodell während des Trainings integriert, anstatt sie als nachträgliche Gedanken zu behandeln.
* Aus dem neuen Papier: Der Fulldit -Ansatz kann Identitätsauferlegung, Tiefe und Kamerabewegung in eine native Generation einbeziehen und eine beliebige Kombination von diesen gleichzeitig beschwören.* Quelle: https://arxiv.org/pdf/2503.19907
Fulldit, wie in dem Papier mit dem Titel ** Fulldit: Multi-Task-Videogeneratives Foundation-Modell mit voller Aufmerksamkeit ** beschrieben, integriert Multi-Task-Bedingungen wie Identitätstransfer, Tiefenmapping und Kamerabewegung in den Kern eines trainierten generativen Videomodells. Die Autoren haben ein Prototypmodell entwickelt und Videoclips begleitet, die auf einer Projektseite verfügbar sind.
** Klicken Sie zum Spielen. Beispiele für die Auferlegung von Benutzerstilen im Steuersatz mit nur einem nativen geschulten Fundamentmodell. ** Quelle: https://fulldit.github.io/
Die Autoren präsentieren Fulldit als Proof-of-Concept für native Text-to-Video-Modelle (T2V) und Bild-zu-Video-Modelle (I2V), die den Benutzern mehr Kontrolle bieten als nur eine Bild- oder Textaufforderung. Da keine ähnlichen Modelle vorhanden sind, haben die Forscher einen neuen Benchmark namens ** Fullbench ** für die Bewertung von Multi-Task-Videos erstellt und in ihren entwickelten Tests eine hochmoderne Leistung beanspruchen. Die Objektivität von Fullbench, die von den Autoren selbst entworfen wurde, bleibt jedoch nicht getestet, und sein Datensatz von 1.400 Fällen kann für breitere Schlussfolgerungen zu begrenzt sein.
Der faszinierendste Aspekt der Architektur von Fulldit ist das Potenzial, neue Arten von Kontrolle zu integrieren. Die Autoren beachten:
** 'In dieser Arbeit untersuchen wir nur Kontrollbedingungen der Kamera-, Identitäts- und Tiefeninformationen. Wir haben andere Bedingungen und Modalitäten wie Audio, Sprache, Punktwolke, Objektgrenzen, optische Fluss usw. nicht weiter untersucht
Während Fulldit einen Schritt nach vorne in der Videogeneration von Multitasks darstellt, baut es auf vorhandenen Architekturen an, anstatt ein neues Paradigma einzuführen. Dennoch ist es das einzige Video-Foundation-Modell mit nativ integrierten Funktionen im Steuerungsstil im Stil, und seine Architektur soll zukünftige Innovationen berücksichtigen.
** Klicken Sie zum Spielen. Beispiele für benutzergesteuerte Kamerabewegungen von der Projektseite. **
Das Papier, das von neun Forschern der Kuaishou-Technologie und der chinesischen Universität von Hongkong verfasst wurde, trägt den Titel ** Fulldit: Multi-Task-Videogenerative Foundation-Modell mit voller Aufmerksamkeit **. Die Projektseite und neue Benchmark -Daten sind bei Hugging Face verfügbar.
Verfahren
Der einheitliche Aufmerksamkeitsmechanismus von Fullldit soll das Lernen der Kreuzmodalrepräsentation verbessern, indem sowohl räumliche als auch zeitliche Beziehungen über die Bedingungen hinweg erfasst werden.
*Laut dem neuen Papier integriert Fulldit mehrere Eingabebedingungen durch vollständige Selbstbekämpfung und wandelt sie in eine einheitliche Sequenz um. Im Gegensatz dazu verwenden Adapterbasierte Modelle (links oben) separate Module für jeden Eingang, was zu Redundanz, Konflikten und schwächerer Leistung führt.**
Im Gegensatz zu Adapter-basierten Setups, die jeden Eingangsstrom separat verarbeiten, vermeidet die gemeinsame Aufmerksamkeitsstruktur von Fulldit Zweigkonflikte und reduziert den Parameteraufwand. Die Autoren behaupten, dass die Architektur auf neue Eingangstypen ohne größere Neugestaltung skalieren kann und dass das Modellschema Anzeichen einer Verallgemeinerung auf Zustandskombinationen zeigt, die während des Trainings nicht zu sehen sind, z. B. die Verknüpfung der Kamerabewegung mit Charakteridentität.
** Klicken Sie zum Spielen. Beispiele für die Identitätserzeugung von der Projektstelle **.
In Fulldits Architektur werden alle Konditionierungseingaben - wie Text, Kamerabewegung, Identität und Tiefe - zuerst in ein einheitliches Token -Format umgewandelt. Diese Token werden dann zu einer einzigen langen Sequenz verkettet, die mithilfe einer vollständigen Selbstbeziehung durch einen Stapel von Transformatorschichten verarbeitet wird. Dieser Ansatz folgt früheren Werken wie Open-Sora-Plan und Filmgen.
Mit diesem Design kann das Modell zeitliche und räumliche Beziehungen gemeinsam unter allen Bedingungen lernen. Jeder Transformatorblock arbeitet über die gesamte Sequenz und ermöglicht dynamische Wechselwirkungen zwischen Modalitäten, ohne sich auf separate Module für jeden Eingang zu verlassen. Die Architektur ist so ausgelegt, dass sie in Zukunft ohne wesentliche strukturelle Veränderungen leichter zusätzliche Kontrollsignale einbeziehen.
Die Kraft von drei
Fulldit wandelt jedes Steuersignal in ein standardisiertes Token -Format um, sodass alle Bedingungen in einem einheitlichen Aufmerksamkeitsbereich zusammen verarbeitet werden können. Für die Kamerabewegung codiert das Modell für jeden Frame eine Sequenz extrinsischer Parameter - wie Position und Ausrichtung. Diese Parameter werden Zeitstempel und projiziert in Einbetten von Vektoren, die die zeitliche Natur des Signals widerspiegeln.
Identitätsinformationen werden unterschiedlich behandelt, da sie eher räumlich als zeitlich sind. Das Modell verwendet Identitätskarten, die angeben, welche Zeichen vorhanden sind, in welchen Teilen jedes Rahmens. Diese Karten sind in Patches unterteilt, wobei jedes Patch in eine Einbettung projiziert wird, die räumliche Identitätshinweise erfasst, sodass das Modell bestimmte Regionen des Rahmens mit bestimmten Entitäten assoziieren kann.
Die Tiefe ist ein räumlich -zeitliches Signal, und das Modell behandelt es, indem Tiefenvideos in 3D -Patches aufgeteilt werden, die sowohl Platz als auch Zeit umfassen. Diese Patches werden dann so eingebettet, dass ihre Struktur über Frames hinweg erhalten bleibt.
Sobald eingebettet ist, werden alle diese Bedingungs-Token (Kamera, Identität und Tiefe) zu einer einzigen langen Sequenz verkettet, sodass Fulldit sie mit voller Selbstbesprechung zusammenarbeiten kann. Diese gemeinsame Darstellung ermöglicht es dem Modell, Interaktionen über Modalitäten hinweg und über die Zeit hinweg zu lernen, ohne sich auf isolierte Verarbeitungsströme zu verlassen.
Daten und Tests
Der Trainingsansatz von Fulldit stützte sich auf selektiv kommentierte Datensätze, die auf jeden Konditionstyp zugeschnitten waren, anstatt dass alle Bedingungen gleichzeitig vorhanden sind.
Bei den Textbedingungen folgt die Initiative dem im Projekt von Miradata beschriebenen strukturierten Bildunterschrift -Ansatz.
* Videosammlung und Annotationspipeline aus dem Miradata -Projekt.* Quelle: https://arxiv.org/pdf/2407.06358
Für die Kamerabewegung war der Realestate10K-Datensatz aufgrund seiner hochwertigen Grundwahrheitsanmerkungen der Kameraparameter die Hauptdatenquelle. Die Autoren stellten jedoch fest, dass das Training ausschließlich auf Kamera-Datensätzen der statischen Szenen wie Realestate10K dazu neigte, dynamisches Objekt und menschliche Bewegungen in generierten Videos zu reduzieren. Um dem entgegenzuwirken, führten sie zusätzliche Feinabstimmungen mit internen Datensätzen durch, die dynamischere Kamerabewegungen enthielten.
Identitätsanmerkungen wurden unter Verwendung der für das ConceptMaster-Projekt entwickelten Pipeline generiert, wodurch eine effiziente Filterung und Extraktion feinkörniger Identitätsinformationen ermöglicht wurde.
* Das ConceptMaster -Framework ist so konzipiert
Tiefenanmerkungen wurden aus dem PANDAA-70M-Datensatz unter Verwendung von Tiefenanwälte erhalten.
Optimierung durch Datenbestellung
Die Autoren haben auch einen progressiven Schulungsplan implementiert und früher in der Ausbildung herausfordernde Bedingungen einführte, um sicherzustellen, dass das Modell, das robuste Darstellungen erworben hat, bevor einfachere Aufgaben hinzugefügt wurden. Die Trainingsanordnung verlief vom Text zu Kamera, dann von Identitäten und schließlich Tiefe mit einfacheren Aufgaben, die im Allgemeinen später und mit weniger Beispielen eingeführt wurden.
Die Autoren betonen den Wert der Bestellung der Arbeitsbelastung auf diese Weise:
** 'In der Phase vor der Ausbildung stellten wir fest, dass eine anspruchsvollere Aufgaben verlängerte die Schulungszeit erfordern und früher im Lernprozess eingeführt werden sollten. Diese herausfordernden Aufgaben beinhalten komplexe Datenverteilungen, die sich erheblich vom Ausgabevideo unterscheiden, wodurch das Modell über eine übergenauische Kapazität verfügt, um sie genau zu erfassen und darzustellen. **
** "Umgekehrt kann das Einführen leichterer Aufgaben zu früh das Modell dazu führen, dass das Lernen zuerst priorisiert wird, da sie ein sofortigeres Feedback der Optimierung bieten, was die Konvergenz schwierigerer Aufgaben behindert." **
*Eine Abbildung der von den Forschern angenommenen Datenschulungsreihenfolge, wobei Rot ein höheres Datenvolumen anzeigt.*
Nach der ersten Vorausbildung verfeinerte eine endgültige Feinabstimmung das Modell weiter, um die visuelle Qualität und die Bewegungsdynamik zu verbessern. Danach folgte das Training dem eines Standarddiffusions -Frameworks: Rauschen zu Video -Latenten hinzugefügt, und das Modell, das es unter Verwendung der Token für eingebettete Bedingung als Leitlinie vorhersagt und entfernen kann.
Um Fulldit effektiv zu bewerten und einen fairen Vergleich mit vorhandenen Methoden und in Ermangelung eines anderen praktischen Benchmarks zu bieten, stellten die Autoren ** Fullbench **, eine kuratierte Benchmark -Suite, die aus 1.400 verschiedenen Testfällen besteht, eingeführt.
* Eine Daten -Explorer -Instanz für den neuen Fullbench -Benchmark.* Quelle: https://huggingface.co/datasets/kwaivgi/fullbench
Jeder Datenpunkt lieferte Grundwahrheitsanmerkungen für verschiedene Konditionssignale, einschließlich Kamerabewegung, Identität und Tiefe.
Metriken
Die Autoren bewerteten Fulldit mit zehn Metriken, die fünf Hauptaspekte der Leistung abdecken: Textausrichtung, Kamerakontrolle, Ähnlichkeit der Identität, Tiefengenauigkeit und allgemeine Videoqualität.
Die Textausrichtung wurde unter Verwendung der Clip -Ähnlichkeit gemessen, während die Kamera -Steuerung durch Rotationsfehler (Roterr), Translationsfehler (transerr) und Kamerabewegungskonsistenz (CAMMC) gemäß dem Ansatz von CAMI2V (im Cameractrl -Projekt) bewertet wurde.
Die Identitätsähnlichkeit wurde unter Verwendung von Dino-I und Clip-I bewertet, und die Genauigkeit der Tiefenkontrolle wurde unter Verwendung des mittleren Absolutenfehlers (MAE) quantifiziert.
Die Videoqualität wurde mit drei Metriken von Miradata beurteilt: eine Clip-Ähnlichkeit auf Rahmenebene für Glätte; OPTISCHE FLOWS-Basisbewegungsabstand für Dynamik; und Laion-ästhetische Werte für visuelle Anziehungskraft.
Ausbildung
Die Autoren trainierten Fulldit mit einem internen (nicht genannten) Text-zu-Video-Diffusionsmodell, das ungefähr eine Milliarde Parameter enthielt. Sie wählten absichtlich eine bescheidene Parametergröße, um Fairness in Vergleich mit früheren Methoden aufrechtzuerhalten und die Reproduzierbarkeit sicherzustellen.
Da die Trainingsvideos in Länge und Auflösung unterschiedlich waren, standardisierten die Autoren jede Charge, indem sie die Größe und Polsterung von Videos zu einer gemeinsamen Auflösung, einer Abtastung von 77 Bildern pro Sequenz und Verwendung angewendeter Aufmerksamkeits- und Verlustmasken zur Optimierung der Trainingseffektivität.
Der Adam -Optimierer wurde bei einer Lernrate von 1 × 10 –5 in einem Cluster von 64 Nvidia H800 -GPUs für insgesamt 5.120 GB VRAM verwendet (denken Sie daran, dass in der Enthusiast -Synthesegemeinschaften 24 GB auf einem RTX 3090 nach wie vor als luxuriöser Standard angesehen werden).
Das Modell wurde für rund 32.000 Stufen geschult, wobei bis zu drei Identitäten pro Video sowie 20 Frames der Kamerafedingungen und 21 Frames der Tiefenbedingungen enthielten, die beide gleichmäßig aus den insgesamt 77 Bildern abgetastet wurden.
Zum Inferenz erzeugte das Modell Videos mit einer Auflösung von 384 × 672 Pixel (ungefähr fünf Sekunden bei 15 Bildern pro Sekunde) mit 50 Diffusions-Inferenzschritten und einer klassifikatorfreien Leitlinienskala von fünf.
Vorherige Methoden
Für die Bewertung der Kamera-zu-Video-Bewertung verglichen die Autoren Fulldit mit MotionCtrl, Cameractrl und CAMI2V, wobei alle Modelle den Realestate10K-Datensatz ausgebildet wurden, um Konsistenz und Fairness zu gewährleisten.
In der identitätskonditionierten Generation wurde das Modell mit denselben Trainingsdaten und Architektur mit den gleichen Trainingsdaten und Architektur keine vergleichbaren Open-Source-Multi-Identitäts-Modelle zur Verfügung standen.
Für Tiefen-Video-Aufgaben wurden Vergleiche mit Strg-Adapter und ControlVideo durchgeführt.
*Quantitative Ergebnisse für die Einzelaufgaben-Videogenerierung. Fulldit wurde mit MotionCtrl, Cameractrl und CAMI2V für die Generierung von Kamera-zu-Videos verglichen. ConceptMaster (1B Parameterversion) für Identität zu Video; und Strg-Adapter und ControlVideo für Tiefe bis Video. Alle Modelle wurden anhand ihrer Standardeinstellungen bewertet. Für die Konsistenz wurden 16 Frames gleichmäßig aus jeder Methode abgetastet, was der Ausgangslänge der vorherigen Modelle entspricht.*
Die Ergebnisse zeigen, dass Fulldit trotz der gleichzeitigen Umgang mit mehreren Konditionierungssignalen eine hochmoderne Leistung in Metriken in Bezug auf Text, Kamerabewegung, Identität und Tiefensteuerung erzielte.
Bei allgemeinen Qualitätsmetriken übertraf das System im Allgemeinen andere Methoden, obwohl seine Glätte geringfügig niedriger war als die von ConceptMaster. Hier kommentieren die Autoren:
** 'Die Glätte von Fulldit ist etwas niedriger als die von ConceptMaster, da die Berechnung der Glättung auf der Clip -Ähnlichkeit zwischen benachbarten Rahmen basiert. Da Fulldit im Vergleich zu ConceptMaster eine signifikant größere Dynamik aufweist, wird die Glättemetrik durch die großen Variationen zwischen benachbarten Rahmen beeinflusst. **
** 'Für die ästhetische Punktzahl, da das Bewertungsmodell Bilder im Malstil und ControlVideo in diesem Stil generiert, erreicht es eine hohe Punktzahl in der Ästhetik.' **
In Bezug auf den qualitativen Vergleich könnte es vorzuziehen sein, auf die Beispielvideos der Fulldit -Projektstelle zu verweisen, da die PDF -Beispiele unvermeidlich statisch sind (und auch zu groß, um hier vollständig zu reproduzieren).
*Der erste Abschnitt der qualitativen Ergebnisse im PDF. Weitere Beispiele finden Sie im Quellpapier, die hier zu umfangreich sind, um sie zu reproduzieren.*
Die Autoren kommentieren:
** 'fulldit zeigt eine überlegene Identitätserhaltung und generiert Videos mit besserer Dynamik und visueller Qualität im Vergleich zu [ConceptMaster]. Da ConceptMaster und Fulldit am gleichen Rückgrat geschult sind, unterstreicht dies die Wirksamkeit der Bedingungsinjektion mit voller Aufmerksamkeit. **
** '… Die [anderen] Ergebnisse zeigen die überlegene Kontrollierbarkeit und Erzeugungsqualität von Fulldit im Vergleich zu bestehenden Methoden der Tiefe zu Video- und Kamera-zu-Video.' **
*Ein Abschnitt der Beispiele der PDF für die Ausgabe von Fulldit mit mehreren Signalen. Weitere Beispiele finden Sie im Quellpapier und auf der Projektseite.**
Abschluss
Fulldit stellt einen aufregenden Schritt in Richtung eines umfassenderen Video-Foundation-Modells dar, aber es bleibt die Frage, ob die Nachfrage nach CONTROLNET-Funktionen ihre Implementierung im Maßstab rechtfertigt, insbesondere für Open-Source-Projekte. Diese Projekte würden Schwierigkeiten haben, die riesige GPU -Verarbeitungskraft ohne kommerzielle Unterstützung zu erhalten.
Die primäre Herausforderung besteht darin, dass die Verwendung von Systemen wie Tiefe und Pose im Allgemeinen eine nicht triviale Vertrautheit mit komplexen Benutzeroberflächen wie Comfyui erfordert. Daher wird ein funktionales Open-Source-Modell dieser Art höchstwahrscheinlich von kleineren VFX-Unternehmen entwickelt, denen die Ressourcen oder die Motivation fehlt, ein solches Modell privat zu kuratieren und zu trainieren.
Andererseits können API-gesteuerte "Rent-an-AI-Systeme" gut motiviert sein, um einfachere und benutzerfreundlichere Interpretationsmethoden für Modelle mit direkt geschulten Nebensteuerungssystemen zu entwickeln.
** Klicken Sie zum Spielen. Tiefe+Textsteuerungen, die einer Videogenerierung mit Fulldit auferlegt wurden. **
*Die Autoren geben kein bekanntes Basismodell an (dh SDXL usw.)*
** Erstmals veröffentlicht am Donnerstag, den 27. März 2025 **
Verwandter Artikel
在真實視頻內容中揭示微妙而有影響力的AI修改
2019年,當時的美國眾議院議長南希·佩洛西(Nancy Pelosi)的欺騙性視頻廣泛流傳。該視頻被編輯為使她顯得陶醉,這引起了人們對操縱媒體如何誤導公眾多麼容易被誤解的視頻。儘管它很簡單,但這一事件突出了T
Openai計劃將Sora的視頻生成器帶到Chatgpt
OpenAI計劃將其AI視頻生成工具Sora集成到其受歡迎的消費者聊天機器人Chatgpt中。公司領導人在最近的一次不和諧辦公時間會議上揭示了這一點。目前,只有通過OpenAI於12月啟動的專用Web應用程序才能訪問Sora,允許用戶
Bytedance加入DeepFake AI視頻市場
Tiktok背後的人們bytedance剛剛展示了他們最新的AI創作Omnihuman-1,這令人難以置信。這個新系統可以攪動超級逼真的視頻,而它的所有需求只是一個參考圖像和一些音頻。很酷的是,您可以調整視頻的縱橫比和
Kommentare (0)
0/200
Video -Foundation -Modelle wie Hunyuan und Wan 2.1 haben erhebliche Fortschritte gemacht, aber sie fallen häufig in Bezug auf die detaillierte Kontrolle, die für die Film- und Fernsehproduktion erforderlich ist, insbesondere im Bereich der visuellen Effekte (VFX). In professionellen VFX-Studios werden diese Modelle zusammen mit früheren bildbasierten Modellen wie stabiler Diffusion, Kandinsky und Fluss in Verbindung mit einer Reihe von Tools verwendet, um ihre Leistung zu verfeinern, um spezifische kreative Anforderungen zu erfüllen. Wenn ein Direktor eine Änderung anfordert und etwas wie "das sieht großartig aus, aber können wir es ein bisschen mehr [n] machen?"
Stattdessen wird ein AI VFX-Team eine Kombination aus herkömmlichen CGI- und Kompositionstechniken sowie maßgeschneiderte Workflows verwenden, um die Grenzen der Videosynthese weiter zu überschreiten. Dieser Ansatz ähnelt der Verwendung eines Standard -Webbrowsers wie Chrome. Es ist funktional aus der Schachtel, aber es müssen einige Plugins installieren.
Steuerfreaks
Im Bereich der diffusionsbasierten Bildsynthese ist eines der wichtigsten Systeme von Drittanbietern ControlNet. Diese Technik führt strukturierte Steuerung in generative Modelle ein und ermöglicht es Benutzern, die Bild- oder Videogenerierung mit zusätzlichen Eingängen wie Edge -Karten, Tiefenkarten oder Poseninformationen zu leiten.
*Die verschiedenen Methoden von ControlNET ermöglichen Tiefe> Bild (obere Reihe), semantische Segmentierung> Bild (unten links) und posegesteuerte Bilderzeugung von Menschen und Tieren (unten links).*
ControlNET ist nicht nur auf Textaufforderungen angewiesen. Es verwendet separate neuronale Netzwerke oder Adapter, um diese Konditionierungssignale zu verarbeiten und gleichzeitig die generativen Funktionen des Basismodells beizubehalten. Dies ermöglicht hoch angepasste Ausgänge, die sich eng mit den Benutzerspezifikationen übereinstimmen, und machen sie für Anwendungen, die eine präzise Kontrolle über Zusammensetzung, Struktur oder Bewegung erfordern, von unschätzbarem Wert.
* Mit einer Leitpose kann eine Vielzahl genauer Ausgabetypen über ControlNET erhalten werden.* Quelle: https://arxiv.org/pdf/2302.05543
Diese auf Adapterbasis basierenden Systeme, die extern auf einer Reihe von intern ausgerichteten neuronalen Prozessen arbeiten, sind jedoch mehrere Nachteile ausgestattet. Adapter werden unabhängig geschult, was zu Zweigkonflikten führen kann, wenn mehrere Adapter kombiniert werden, was häufig zu Generationen von geringerer Qualität führt. Sie führen auch Parameter -Redundanz ein und erfordern zusätzliche Rechenressourcen und Speicher für jeden Adapter, wodurch die Skalierung ineffizient ist. Darüber hinaus liefern Adapter trotz ihrer Flexibilität häufig suboptimale Ergebnisse im Vergleich zu Modellen, die für die Erzeugung von Multi-Konditions vollständig fein abgestimmt sind. Diese Probleme können Adapter-basierte Methoden für Aufgaben weniger effektiv machen, die die nahtlose Integration mehrerer Kontrollsignale erfordern.
Im Idealfall würden die Funktionen von ControlNET nativ modular in das Modell integriert, was zukünftige Innovationen wie die gleichzeitige Video-/Audiogenerierung oder native Lippensynchronisierungsfunktionen ermöglicht. Derzeit wird jede zusätzliche Funktion entweder zu einer Postproduktionsaufgabe oder zu einem nicht einheimischen Verfahren, das durch die sensiblen Gewichte des Foundation-Modells navigieren muss.
Fulldit
Geben Sie Fulldit, einen neuen Ansatz aus China, der Features im ControlNET-Stil direkt in ein generatives Videomodell während des Trainings integriert, anstatt sie als nachträgliche Gedanken zu behandeln.
* Aus dem neuen Papier: Der Fulldit -Ansatz kann Identitätsauferlegung, Tiefe und Kamerabewegung in eine native Generation einbeziehen und eine beliebige Kombination von diesen gleichzeitig beschwören.* Quelle: https://arxiv.org/pdf/2503.19907
Fulldit, wie in dem Papier mit dem Titel ** Fulldit: Multi-Task-Videogeneratives Foundation-Modell mit voller Aufmerksamkeit ** beschrieben, integriert Multi-Task-Bedingungen wie Identitätstransfer, Tiefenmapping und Kamerabewegung in den Kern eines trainierten generativen Videomodells. Die Autoren haben ein Prototypmodell entwickelt und Videoclips begleitet, die auf einer Projektseite verfügbar sind.
** Klicken Sie zum Spielen. Beispiele für die Auferlegung von Benutzerstilen im Steuersatz mit nur einem nativen geschulten Fundamentmodell. ** Quelle: https://fulldit.github.io/
Die Autoren präsentieren Fulldit als Proof-of-Concept für native Text-to-Video-Modelle (T2V) und Bild-zu-Video-Modelle (I2V), die den Benutzern mehr Kontrolle bieten als nur eine Bild- oder Textaufforderung. Da keine ähnlichen Modelle vorhanden sind, haben die Forscher einen neuen Benchmark namens ** Fullbench ** für die Bewertung von Multi-Task-Videos erstellt und in ihren entwickelten Tests eine hochmoderne Leistung beanspruchen. Die Objektivität von Fullbench, die von den Autoren selbst entworfen wurde, bleibt jedoch nicht getestet, und sein Datensatz von 1.400 Fällen kann für breitere Schlussfolgerungen zu begrenzt sein.
Der faszinierendste Aspekt der Architektur von Fulldit ist das Potenzial, neue Arten von Kontrolle zu integrieren. Die Autoren beachten:
** 'In dieser Arbeit untersuchen wir nur Kontrollbedingungen der Kamera-, Identitäts- und Tiefeninformationen. Wir haben andere Bedingungen und Modalitäten wie Audio, Sprache, Punktwolke, Objektgrenzen, optische Fluss usw. nicht weiter untersucht
Während Fulldit einen Schritt nach vorne in der Videogeneration von Multitasks darstellt, baut es auf vorhandenen Architekturen an, anstatt ein neues Paradigma einzuführen. Dennoch ist es das einzige Video-Foundation-Modell mit nativ integrierten Funktionen im Steuerungsstil im Stil, und seine Architektur soll zukünftige Innovationen berücksichtigen.
** Klicken Sie zum Spielen. Beispiele für benutzergesteuerte Kamerabewegungen von der Projektseite. **
Das Papier, das von neun Forschern der Kuaishou-Technologie und der chinesischen Universität von Hongkong verfasst wurde, trägt den Titel ** Fulldit: Multi-Task-Videogenerative Foundation-Modell mit voller Aufmerksamkeit **. Die Projektseite und neue Benchmark -Daten sind bei Hugging Face verfügbar.
Verfahren
Der einheitliche Aufmerksamkeitsmechanismus von Fullldit soll das Lernen der Kreuzmodalrepräsentation verbessern, indem sowohl räumliche als auch zeitliche Beziehungen über die Bedingungen hinweg erfasst werden.
*Laut dem neuen Papier integriert Fulldit mehrere Eingabebedingungen durch vollständige Selbstbekämpfung und wandelt sie in eine einheitliche Sequenz um. Im Gegensatz dazu verwenden Adapterbasierte Modelle (links oben) separate Module für jeden Eingang, was zu Redundanz, Konflikten und schwächerer Leistung führt.**
Im Gegensatz zu Adapter-basierten Setups, die jeden Eingangsstrom separat verarbeiten, vermeidet die gemeinsame Aufmerksamkeitsstruktur von Fulldit Zweigkonflikte und reduziert den Parameteraufwand. Die Autoren behaupten, dass die Architektur auf neue Eingangstypen ohne größere Neugestaltung skalieren kann und dass das Modellschema Anzeichen einer Verallgemeinerung auf Zustandskombinationen zeigt, die während des Trainings nicht zu sehen sind, z. B. die Verknüpfung der Kamerabewegung mit Charakteridentität.
** Klicken Sie zum Spielen. Beispiele für die Identitätserzeugung von der Projektstelle **.
In Fulldits Architektur werden alle Konditionierungseingaben - wie Text, Kamerabewegung, Identität und Tiefe - zuerst in ein einheitliches Token -Format umgewandelt. Diese Token werden dann zu einer einzigen langen Sequenz verkettet, die mithilfe einer vollständigen Selbstbeziehung durch einen Stapel von Transformatorschichten verarbeitet wird. Dieser Ansatz folgt früheren Werken wie Open-Sora-Plan und Filmgen.
Mit diesem Design kann das Modell zeitliche und räumliche Beziehungen gemeinsam unter allen Bedingungen lernen. Jeder Transformatorblock arbeitet über die gesamte Sequenz und ermöglicht dynamische Wechselwirkungen zwischen Modalitäten, ohne sich auf separate Module für jeden Eingang zu verlassen. Die Architektur ist so ausgelegt, dass sie in Zukunft ohne wesentliche strukturelle Veränderungen leichter zusätzliche Kontrollsignale einbeziehen.
Die Kraft von drei
Fulldit wandelt jedes Steuersignal in ein standardisiertes Token -Format um, sodass alle Bedingungen in einem einheitlichen Aufmerksamkeitsbereich zusammen verarbeitet werden können. Für die Kamerabewegung codiert das Modell für jeden Frame eine Sequenz extrinsischer Parameter - wie Position und Ausrichtung. Diese Parameter werden Zeitstempel und projiziert in Einbetten von Vektoren, die die zeitliche Natur des Signals widerspiegeln.
Identitätsinformationen werden unterschiedlich behandelt, da sie eher räumlich als zeitlich sind. Das Modell verwendet Identitätskarten, die angeben, welche Zeichen vorhanden sind, in welchen Teilen jedes Rahmens. Diese Karten sind in Patches unterteilt, wobei jedes Patch in eine Einbettung projiziert wird, die räumliche Identitätshinweise erfasst, sodass das Modell bestimmte Regionen des Rahmens mit bestimmten Entitäten assoziieren kann.
Die Tiefe ist ein räumlich -zeitliches Signal, und das Modell behandelt es, indem Tiefenvideos in 3D -Patches aufgeteilt werden, die sowohl Platz als auch Zeit umfassen. Diese Patches werden dann so eingebettet, dass ihre Struktur über Frames hinweg erhalten bleibt.
Sobald eingebettet ist, werden alle diese Bedingungs-Token (Kamera, Identität und Tiefe) zu einer einzigen langen Sequenz verkettet, sodass Fulldit sie mit voller Selbstbesprechung zusammenarbeiten kann. Diese gemeinsame Darstellung ermöglicht es dem Modell, Interaktionen über Modalitäten hinweg und über die Zeit hinweg zu lernen, ohne sich auf isolierte Verarbeitungsströme zu verlassen.
Daten und Tests
Der Trainingsansatz von Fulldit stützte sich auf selektiv kommentierte Datensätze, die auf jeden Konditionstyp zugeschnitten waren, anstatt dass alle Bedingungen gleichzeitig vorhanden sind.
Bei den Textbedingungen folgt die Initiative dem im Projekt von Miradata beschriebenen strukturierten Bildunterschrift -Ansatz.
* Videosammlung und Annotationspipeline aus dem Miradata -Projekt.* Quelle: https://arxiv.org/pdf/2407.06358
Für die Kamerabewegung war der Realestate10K-Datensatz aufgrund seiner hochwertigen Grundwahrheitsanmerkungen der Kameraparameter die Hauptdatenquelle. Die Autoren stellten jedoch fest, dass das Training ausschließlich auf Kamera-Datensätzen der statischen Szenen wie Realestate10K dazu neigte, dynamisches Objekt und menschliche Bewegungen in generierten Videos zu reduzieren. Um dem entgegenzuwirken, führten sie zusätzliche Feinabstimmungen mit internen Datensätzen durch, die dynamischere Kamerabewegungen enthielten.
Identitätsanmerkungen wurden unter Verwendung der für das ConceptMaster-Projekt entwickelten Pipeline generiert, wodurch eine effiziente Filterung und Extraktion feinkörniger Identitätsinformationen ermöglicht wurde.
* Das ConceptMaster -Framework ist so konzipiert
Tiefenanmerkungen wurden aus dem PANDAA-70M-Datensatz unter Verwendung von Tiefenanwälte erhalten.
Optimierung durch Datenbestellung
Die Autoren haben auch einen progressiven Schulungsplan implementiert und früher in der Ausbildung herausfordernde Bedingungen einführte, um sicherzustellen, dass das Modell, das robuste Darstellungen erworben hat, bevor einfachere Aufgaben hinzugefügt wurden. Die Trainingsanordnung verlief vom Text zu Kamera, dann von Identitäten und schließlich Tiefe mit einfacheren Aufgaben, die im Allgemeinen später und mit weniger Beispielen eingeführt wurden.
Die Autoren betonen den Wert der Bestellung der Arbeitsbelastung auf diese Weise:
** 'In der Phase vor der Ausbildung stellten wir fest, dass eine anspruchsvollere Aufgaben verlängerte die Schulungszeit erfordern und früher im Lernprozess eingeführt werden sollten. Diese herausfordernden Aufgaben beinhalten komplexe Datenverteilungen, die sich erheblich vom Ausgabevideo unterscheiden, wodurch das Modell über eine übergenauische Kapazität verfügt, um sie genau zu erfassen und darzustellen. **
** "Umgekehrt kann das Einführen leichterer Aufgaben zu früh das Modell dazu führen, dass das Lernen zuerst priorisiert wird, da sie ein sofortigeres Feedback der Optimierung bieten, was die Konvergenz schwierigerer Aufgaben behindert." **
*Eine Abbildung der von den Forschern angenommenen Datenschulungsreihenfolge, wobei Rot ein höheres Datenvolumen anzeigt.*
Nach der ersten Vorausbildung verfeinerte eine endgültige Feinabstimmung das Modell weiter, um die visuelle Qualität und die Bewegungsdynamik zu verbessern. Danach folgte das Training dem eines Standarddiffusions -Frameworks: Rauschen zu Video -Latenten hinzugefügt, und das Modell, das es unter Verwendung der Token für eingebettete Bedingung als Leitlinie vorhersagt und entfernen kann.
Um Fulldit effektiv zu bewerten und einen fairen Vergleich mit vorhandenen Methoden und in Ermangelung eines anderen praktischen Benchmarks zu bieten, stellten die Autoren ** Fullbench **, eine kuratierte Benchmark -Suite, die aus 1.400 verschiedenen Testfällen besteht, eingeführt.
* Eine Daten -Explorer -Instanz für den neuen Fullbench -Benchmark.* Quelle: https://huggingface.co/datasets/kwaivgi/fullbench
Jeder Datenpunkt lieferte Grundwahrheitsanmerkungen für verschiedene Konditionssignale, einschließlich Kamerabewegung, Identität und Tiefe.
Metriken
Die Autoren bewerteten Fulldit mit zehn Metriken, die fünf Hauptaspekte der Leistung abdecken: Textausrichtung, Kamerakontrolle, Ähnlichkeit der Identität, Tiefengenauigkeit und allgemeine Videoqualität.
Die Textausrichtung wurde unter Verwendung der Clip -Ähnlichkeit gemessen, während die Kamera -Steuerung durch Rotationsfehler (Roterr), Translationsfehler (transerr) und Kamerabewegungskonsistenz (CAMMC) gemäß dem Ansatz von CAMI2V (im Cameractrl -Projekt) bewertet wurde.
Die Identitätsähnlichkeit wurde unter Verwendung von Dino-I und Clip-I bewertet, und die Genauigkeit der Tiefenkontrolle wurde unter Verwendung des mittleren Absolutenfehlers (MAE) quantifiziert.
Die Videoqualität wurde mit drei Metriken von Miradata beurteilt: eine Clip-Ähnlichkeit auf Rahmenebene für Glätte; OPTISCHE FLOWS-Basisbewegungsabstand für Dynamik; und Laion-ästhetische Werte für visuelle Anziehungskraft.
Ausbildung
Die Autoren trainierten Fulldit mit einem internen (nicht genannten) Text-zu-Video-Diffusionsmodell, das ungefähr eine Milliarde Parameter enthielt. Sie wählten absichtlich eine bescheidene Parametergröße, um Fairness in Vergleich mit früheren Methoden aufrechtzuerhalten und die Reproduzierbarkeit sicherzustellen.
Da die Trainingsvideos in Länge und Auflösung unterschiedlich waren, standardisierten die Autoren jede Charge, indem sie die Größe und Polsterung von Videos zu einer gemeinsamen Auflösung, einer Abtastung von 77 Bildern pro Sequenz und Verwendung angewendeter Aufmerksamkeits- und Verlustmasken zur Optimierung der Trainingseffektivität.
Der Adam -Optimierer wurde bei einer Lernrate von 1 × 10 –5 in einem Cluster von 64 Nvidia H800 -GPUs für insgesamt 5.120 GB VRAM verwendet (denken Sie daran, dass in der Enthusiast -Synthesegemeinschaften 24 GB auf einem RTX 3090 nach wie vor als luxuriöser Standard angesehen werden).
Das Modell wurde für rund 32.000 Stufen geschult, wobei bis zu drei Identitäten pro Video sowie 20 Frames der Kamerafedingungen und 21 Frames der Tiefenbedingungen enthielten, die beide gleichmäßig aus den insgesamt 77 Bildern abgetastet wurden.
Zum Inferenz erzeugte das Modell Videos mit einer Auflösung von 384 × 672 Pixel (ungefähr fünf Sekunden bei 15 Bildern pro Sekunde) mit 50 Diffusions-Inferenzschritten und einer klassifikatorfreien Leitlinienskala von fünf.
Vorherige Methoden
Für die Bewertung der Kamera-zu-Video-Bewertung verglichen die Autoren Fulldit mit MotionCtrl, Cameractrl und CAMI2V, wobei alle Modelle den Realestate10K-Datensatz ausgebildet wurden, um Konsistenz und Fairness zu gewährleisten.
In der identitätskonditionierten Generation wurde das Modell mit denselben Trainingsdaten und Architektur mit den gleichen Trainingsdaten und Architektur keine vergleichbaren Open-Source-Multi-Identitäts-Modelle zur Verfügung standen.
Für Tiefen-Video-Aufgaben wurden Vergleiche mit Strg-Adapter und ControlVideo durchgeführt.
*Quantitative Ergebnisse für die Einzelaufgaben-Videogenerierung. Fulldit wurde mit MotionCtrl, Cameractrl und CAMI2V für die Generierung von Kamera-zu-Videos verglichen. ConceptMaster (1B Parameterversion) für Identität zu Video; und Strg-Adapter und ControlVideo für Tiefe bis Video. Alle Modelle wurden anhand ihrer Standardeinstellungen bewertet. Für die Konsistenz wurden 16 Frames gleichmäßig aus jeder Methode abgetastet, was der Ausgangslänge der vorherigen Modelle entspricht.*
Die Ergebnisse zeigen, dass Fulldit trotz der gleichzeitigen Umgang mit mehreren Konditionierungssignalen eine hochmoderne Leistung in Metriken in Bezug auf Text, Kamerabewegung, Identität und Tiefensteuerung erzielte.
Bei allgemeinen Qualitätsmetriken übertraf das System im Allgemeinen andere Methoden, obwohl seine Glätte geringfügig niedriger war als die von ConceptMaster. Hier kommentieren die Autoren:
** 'Die Glätte von Fulldit ist etwas niedriger als die von ConceptMaster, da die Berechnung der Glättung auf der Clip -Ähnlichkeit zwischen benachbarten Rahmen basiert. Da Fulldit im Vergleich zu ConceptMaster eine signifikant größere Dynamik aufweist, wird die Glättemetrik durch die großen Variationen zwischen benachbarten Rahmen beeinflusst. **
** 'Für die ästhetische Punktzahl, da das Bewertungsmodell Bilder im Malstil und ControlVideo in diesem Stil generiert, erreicht es eine hohe Punktzahl in der Ästhetik.' **
In Bezug auf den qualitativen Vergleich könnte es vorzuziehen sein, auf die Beispielvideos der Fulldit -Projektstelle zu verweisen, da die PDF -Beispiele unvermeidlich statisch sind (und auch zu groß, um hier vollständig zu reproduzieren).
*Der erste Abschnitt der qualitativen Ergebnisse im PDF. Weitere Beispiele finden Sie im Quellpapier, die hier zu umfangreich sind, um sie zu reproduzieren.*
Die Autoren kommentieren:
** 'fulldit zeigt eine überlegene Identitätserhaltung und generiert Videos mit besserer Dynamik und visueller Qualität im Vergleich zu [ConceptMaster]. Da ConceptMaster und Fulldit am gleichen Rückgrat geschult sind, unterstreicht dies die Wirksamkeit der Bedingungsinjektion mit voller Aufmerksamkeit. **
** '… Die [anderen] Ergebnisse zeigen die überlegene Kontrollierbarkeit und Erzeugungsqualität von Fulldit im Vergleich zu bestehenden Methoden der Tiefe zu Video- und Kamera-zu-Video.' **
*Ein Abschnitt der Beispiele der PDF für die Ausgabe von Fulldit mit mehreren Signalen. Weitere Beispiele finden Sie im Quellpapier und auf der Projektseite.**
Abschluss
Fulldit stellt einen aufregenden Schritt in Richtung eines umfassenderen Video-Foundation-Modells dar, aber es bleibt die Frage, ob die Nachfrage nach CONTROLNET-Funktionen ihre Implementierung im Maßstab rechtfertigt, insbesondere für Open-Source-Projekte. Diese Projekte würden Schwierigkeiten haben, die riesige GPU -Verarbeitungskraft ohne kommerzielle Unterstützung zu erhalten.
Die primäre Herausforderung besteht darin, dass die Verwendung von Systemen wie Tiefe und Pose im Allgemeinen eine nicht triviale Vertrautheit mit komplexen Benutzeroberflächen wie Comfyui erfordert. Daher wird ein funktionales Open-Source-Modell dieser Art höchstwahrscheinlich von kleineren VFX-Unternehmen entwickelt, denen die Ressourcen oder die Motivation fehlt, ein solches Modell privat zu kuratieren und zu trainieren.
Andererseits können API-gesteuerte "Rent-an-AI-Systeme" gut motiviert sein, um einfachere und benutzerfreundlichere Interpretationsmethoden für Modelle mit direkt geschulten Nebensteuerungssystemen zu entwickeln.
** Klicken Sie zum Spielen. Tiefe+Textsteuerungen, die einer Videogenerierung mit Fulldit auferlegt wurden. **
*Die Autoren geben kein bekanntes Basismodell an (dh SDXL usw.)*
** Erstmals veröffentlicht am Donnerstag, den 27. März 2025 **












