人工智能視頻生成朝著完全控制
2025年04月18日
RyanLopez
23
諸如Hunyuan和Wan 2.1之類的視頻基礎模型已經取得了長足的進步,但是當涉及電影和電視製作所需的詳細控制時,尤其是在視覺效果領域(VFX)所需的詳細控制。在專業的VFX Studios中,這些模型以及早期的基於圖像的模型(如穩定的擴散,Kandinsky和Flux)與一套工具一起使用,旨在完善其輸出以滿足特定的創意需求。當導演要求進行調整時說:“看起來很棒,但是我們可以使它更加[n]嗎?”時,僅僅聲明該模型缺乏進行此類調整的精確度是不夠的。
取而代之的是,AI VFX團隊將採用傳統CGI和組成技術的組合以及定制開發的工作流程,以進一步推動視頻綜合的界限。這種方法類似於使用Chrome之類的默認Web瀏覽器。它可以開箱即用,但是為了真正根據您的需求調整它,您需要安裝一些插件。
控制怪胎
在基於擴散的圖像合成領域中,最關鍵的第三方系統之一是控製網。該技術將結構化控制引入生成模型,使用戶可以使用其他輸入(例如邊緣地圖,深度圖或姿勢信息)指導圖像或視頻。
*ControlNet的各種方法允許深度>圖像(頂行),語義分割>圖像(左下)和人類和動物的姿勢引導的圖像產生(左下)。
ControlNet不僅依賴文本提示;它採用單獨的神經網絡分支或適配器來處理這些條件信號,同時保持基本模型的生成能力。這使高度自定義的輸出與用戶規格緊密一致,這對於需要精確控制組成,結構或運動的應用程序是無價的。
*具有指導姿勢,可以通過ControlNet獲得多種準確的輸出類型。 *來源:https://arxiv.org/pdf/2302.05543
但是,這些基於適配器的系統在一組內部注重的神經過程中進行外部運行,並帶有幾個缺點。適配器進行獨立培訓,當組合多個適配器時,這可能導致分支衝突,通常導致質量較低的世代。他們還引入了參數冗餘,需要每個適配器的其他計算資源和內存,從而使縮放效率低下。此外,儘管具有靈活性,但與完全微調的多條件生成的模型相比,適配器通常會產生次優的結果。這些問題可以使基於適配器的方法對需要多個控制信號無縫集成的任務效率降低。
理想情況下,ControlNet的功能將以模塊化的方式本地集成到該模型中,從而允許未來的創新,例如同時進行視頻/音頻生成或本機Lip-sync功能。當前,每個其他功能要么成為後期製作任務,要么是必須導航基礎模型敏感權重的非本地過程。
fulldit
輸入Fulldit,這是一種來自中國的新方法,將ControlNet式功能直接整合到培訓期間的生成視頻模型中,而不是將其視為事後的想法。
*從新論文中:Fulldit方法可以將身份強加,深度和相機運動納入本地一代,並且可以立即召喚這些組合。 *來源:https://arxiv.org/pdf/2503.19907
如題為“ ** fulldit:多任務視頻生成基礎模型”的論文中概述的fulldit **,將多任務條件(例如身份轉移,深度映射和攝像機移動)集成到了受過訓練的生成視頻模型的核心中。作者開發了一個原型模型,並在項目網站上提供了隨附的視頻剪輯。
**單擊以播放。 ControlNet風格的用戶示例僅使用本機訓練的基礎模型。 **來源:https://fulldit.github.io/
作者將fulldit作為本機文本對視頻(T2V)和圖像到視頻(I2V)模型的概念驗證,這些模型可為用戶提供更多的控制權,而不僅僅是圖像或文本提示。由於沒有類似的模型,研究人員創建了一個新的基準標準,稱為** FullBench **,用於評估多任務視頻,並在其設計的測試中聲稱最先進的性能。但是,由作者本身設計的FullBench的客觀性仍未經過測試,其1,400個案例的數據集可能過於限制更廣泛的結論。
Fulldit架構最吸引人的方面是它可以結合新類型的控制的潛力。作者註意:
**'在這項工作中,我們僅探索相機,身份和深度信息的控制條件。我們沒有進一步研究其他條件和模式,例如音頻,語音,點雲,對象邊界框,光流等等。儘管Fulldit的設計可以無縫地將其他模式與最小化的修改相結合,但如何快速和成本效益將現有模型適應新條件和模式仍然是一個重要的問題,仍然是進一步探索的重要問題。
儘管Fulldit代表了多任務視頻生成中的一步,但它以現有體系結構為基礎,而不是引入新的範式。儘管如此,它還是唯一具有本地集成控製網狀風格功能的視頻基礎模型,其架構旨在適應未來的創新。
**單擊以播放。從項目站點開始的用戶控制相機移動的示例。 **
該論文由Kuaishou Technology和香港中國大學的九位研究人員撰寫,標題為** Fulldit:多任務視頻生成基礎模型。在擁抱面前可以使用項目頁面和新的基準數據。
方法
Fulldit的統一注意機制旨在通過捕獲跨條件的空間和時間關係來增強跨模式表示學習。
*根據新論文,Fulldit通過全面的自我注意力整合了多個輸入條件,將它們轉換為統一的序列。相比之下,基於適配器的模型(上方最左)為每個輸入使用單獨的模塊,從而導致冗餘,衝突和較弱的性能。
與分別處理每個輸入流的基於適配器的設置不同,Fulldit的共享注意力結構避免了分支衝突並減少了參數開銷。作者聲稱,體系結構可以擴展到新的輸入類型,而無需重新設計,並且模型架構顯示了概括到訓練過程中未看到的條件組合的跡象,例如將攝像頭運動與角色身份鏈接。
**單擊以播放。項目網站的身份生成示例**。
在Fulldit的體系結構中,所有條件輸入(例如文本,相機運動,身份和深度)首先轉換為統一的令牌格式。然後將這些令牌連接成一個單個長序列,並使用完整的自我注意力通過一堆變壓器層進行處理。這種方法遵循了開放式計劃和電影將軍等先前作品。
該設計使模型可以在所有條件下共同學習時間和空間關係。每個變壓器塊在整個序列上都可以運行,從而實現了模態之間的動態交互,而無需依賴每個輸入的單獨模塊。該體系結構的設計為可擴展,使得將來更容易合併其他控制信號而沒有重大的結構變化。
三個的力量
Fulldit將每個控制信號轉換為標準化的令牌格式,以便可以在統一的注意框架中一起處理所有條件。對於相機運動,該模型編碼每個幀的外部參數(例如位置和方向)的序列。這些參數是時間戳,並投影到反映信號時間性質的嵌入向量中。
身份信息的處理方式有所不同,因為它固有地是空間而不是時間。該模型使用標識圖,指示每個幀的哪些部分都存在哪些字符。這些地圖分為補丁,每個貼片都投影到捕獲空間身份提示的嵌入式中,從而使模型可以將框架的特定區域與特定實體相關聯。
深度是一個時空信號,該模型通過將深度視頻分為跨越空間和時間的3D貼片來處理它。然後,將這些貼片嵌入,以保持其跨幀的結構。
一旦嵌入,所有這些條件令牌(相機,身份和深度)都會串聯爲一個長序列,從而使Fulldit可以使用完整的自我注意力將它們一起處理。這種共享表示形式使模型能夠在跨時間和跨時間學習互動,而無需依賴孤立的處理流。
數據和測試
Fulldit的培訓方法依賴於針對每種調節類型的選擇性註釋的數據集,而不是要求同時存在所有條件。
對於文本條件,該計劃遵循Miradata項目中概述的結構化字幕方法。
*來自Miradata項目的視頻收集和註釋管道。 *來源:https://arxiv.org/pdf/2407.06358
對於攝像機運動,由於攝像機參數的高質量地面真相註釋,RealEstate10K數據集是主要數據源。但是,作者觀察到,在像RealEstate10k這樣的靜態相機數據集上僅培訓往往會減少生成視頻中的動態對象和人類運動。為了抵消這一點,他們使用內部數據集進行了額外的微調,其中包括更多動態的攝像頭動作。
使用為概念主項目開發的管道生成身份註釋,該計劃允許有效的過濾和提取細粒度的身份信息。
*概念主框架旨在解決身份解耦問題,同時保留定制視頻中的概念保真度。 *來源:https://arxiv.org/pdf/2501.04698
深度註釋是使用深度任何東西從熊貓-70m數據集獲得的。
通過數據順序優化
作者還實施了逐步的培訓時間表,在培訓中引入了更具挑戰性的條件,以確保在添加簡單任務之前獲得了可靠的強大表示形式。培訓順序從文本到相機條件進行,然後是身份,最後進行深度,更容易的任務稍後引入,示例較少。
作者強調以這種方式訂購工作量的價值:
**'在訓練前階段,我們注意到更具挑戰性的任務需要延長培訓時間,應在學習過程中提出。這些具有挑戰性的任務涉及復雜的數據分佈,這些數據分佈與輸出視頻有很大不同,要求該模型具有足夠的能力來準確捕獲和表示它們。 **
**'相反,過早地引入更輕鬆的任務可能會導致模型首先優先學習,因為它們提供了更直接的優化反饋,這阻礙了更具挑戰性的任務的融合。 '**
*研究人員採用的數據培訓順序的說明,紅色表明數據量更大。 *
在初始預訓練之後,最終的微調階段進一步完善了模型,以改善視覺質量和運動動態。此後,訓練遵循標準擴散框架的訓練:添加到視頻潛在的噪聲,以及使用嵌入式條件令牌作為指導的模型學習來預測和刪除它。
為了有效評估Fulldit並與現有方法進行了公平的比較,並且在沒有任何其他合適基準的情況下,作者引入了** FullBench ** **,這是一個由1,400個不同的測試用例組成的策劃的基準套件。
*新的FullBench基準測試的數據資源管理器實例。
每個數據點為各種條件信號(包括攝像機運動,身份和深度)提供了地面真實註釋。
指標
作者使用十個指標評估了Fulldit,涵蓋了五個主要方面:文本對齊,相機控制,身份相似性,深度準確性和一般視頻質量。
使用剪輯相似性測量文本對齊,而遵循CAMI2V的方法(在CameracTrl Project中),通過旋轉誤差(roterr),翻譯誤差(Transerr)和相機運動一致性(CAMMC)評估攝像頭控制。
使用Dino-I和Clip-I評估了身份相似性,並使用平均絕對誤差(MAE)量化了深度控制精度。
視頻質量以Miradata的三個指標來判斷:框架級剪輯相似性的平滑度;動力學基於光流動的運動距離;和Laion-Asesthetic分數,以進行視覺吸引力。
訓練
作者使用內部(未公開的)文本對視頻擴散模型訓練了Fulldit,該模型包含大約十億個參數。他們有意選擇一個適中的參數大小來保持與先前方法的比較中的公平性並確保可重複性。
由於培訓視頻的長度和分辨率有所不同,因此作者通過調整和填充視頻的大小和填充視頻標準化,每個序列每序列進行77幀,並使用應用的注意力和損失面具來優化訓練效果。
ADAM優化器的學習率在64個NVIDIA H800 GPU的集群中以1×10 -5的使用率使用,總計5,120GB的VRAM(考慮到在愛好者合成社區中,RTX 3090上的24GB仍被認為是24GB)。
該模型經過了大約32,000個步驟的培訓,每個視頻最多包含3個身份,以及20幀的相機條件和21幀的深度條件,都從總共77幀中進行了均勻採樣。
對於推斷,該模型以384×672像素的分辨率生成視頻(每秒15幀的大約5秒鐘),並使用50個擴散推理步驟和5個分類器的指導量表為5。
先驗方法
對於攝像頭評估,作者將Fulldit與MotionCtrl,Cameractrl和Cami2V進行了比較,所有模型都使用了使用RealEstate10K數據集進行了訓練,以確保一致性和公平性。
在身份條件的生成中,由於沒有可比較的開源多個認同模型,因此使用相同的培訓數據和體系結構對1B參數概念主模型進行了基準測試。
對於深度到視頻任務,與CTRL-ADAPTER和CONTRORVIDEO進行了比較。
*單任務視頻生成的定量結果。將Fulldit與MotionCtrl,Cameractrl和Cami2V進行了比較,以生成攝像機到視頻。概念主(1B參數版本),用於識別到視頻;以及用於深度到視頻的Ctrl-apapter和ControlVideo。使用其默認設置對所有模型進行評估。為了保持一致性,從每種方法中均勻地採樣了16個幀,與先前模型的輸出長度匹配。
結果表明,儘管同時處理多個調理信號,但Fulldit在與文本,攝像機運動,身份和深度控件有關的指標中取得了最新的性能。
在整體質量指標中,該系統通常優於其他方法,儘管其平滑度略低於概念師。作者在這裡評論:
**'fulldit的平滑度略低於概念主的平滑度,因為平滑度的計算基於相鄰幀之間的剪輯相似性。與概念主相比,由於Fulldit表現出明顯更大的動力學,因此平滑度度量受到相鄰幀之間的巨大變化的影響。 **
**'對於美學分數,由於評級模型有利於繪畫風格和ControlVideo的圖像,通常以這種風格生成視頻,因此在美學中獲得了很高的分數。 '**
關於定性比較,最好參考Fulldit項目網站上的示例視頻,因為PDF示例不可避免地是靜態的(並且太大,無法在此處完全複製)。
*pdf中定性結果的第一部分。請參閱源文件以獲取其他示例,這些示例太廣泛了,無法在此處複製。
作者評論:
**'Fulldit展示了優越的身份保護,並與[概念主人]相比生成具有更好動態和視覺質量的視頻。由於概念主和Fulldit在同一主鏈上接受了訓練,因此這突出了注入條件的有效性。 **
**'…[其他]結果證明了與現有的深度到視頻和攝像機和視頻方法相比,Fulldit的卓越可控性和發電質量。 '**
*PDF的fulldit輸出示例的一部分,帶有多個信號。請參閱源文件和項目網站以獲取其他示例。 *
結論
Fulldit代表了邁向更全面的視頻基礎模型的激動人心的一步,但是問題仍然是對ControlNet式功能的需求是否證明其規模的實施是合理的,尤其是對於開源項目。這些項目將難以在沒有商業支持的情況下獲得所需的龐大的GPU處理能力。
主要的挑戰是,使用深度和姿勢之類的系統通常需要對Comfyui等複雜用戶界面的不平凡熟悉。因此,這種功能性開源模型最有可能是由較小的VFX公司開發的,這些公司缺乏資源或動力來私下策劃和培訓這種模型。
另一方面,API驅動的“ Rent-An-ai”系統可能會充分動機,以為具有直接訓練的輔助控制系統的模型開發更簡單,更用戶友好的解釋方法。
**單擊以播放。深度+文本控制使用fulldit強加在視頻生成上。 **
*作者沒有指定任何已知的基本模型(即,SDXL等)*
**首次出版於2025年3月27日,星期四**
相關文章
Unveiling Subtle Yet Impactful AI Modifications in Authentic Video Content
In 2019, a deceptive video of Nancy Pelosi, then Speaker of the US House of Representatives, circulated widely. The video, which was edited to make her appear intoxicated, was a stark reminder of how easily manipulated media can mislead the public. Despite its simplicity, this incident highlighted t
OpenAI plans to bring Sora’s video generator to ChatGPT
OpenAI plans to integrate its AI video generation tool, Sora, into its popular consumer chatbot, ChatGPT. This was revealed by company leaders during a recent office hours session on Discord. Currently, Sora is accessible only through a dedicated web app launched by OpenAI in December, allowing user
ByteDance Joins Deepfake AI Video Market
ByteDance, the folks behind TikTok, have just shown off their latest AI creation, OmniHuman-1, and it's pretty mind-blowing. This new system can whip up super realistic videos, and all it needs is just a single reference image and some audio. What's cool is you can tweak the video's aspect ratio and
評論 (0)
0/200






諸如Hunyuan和Wan 2.1之類的視頻基礎模型已經取得了長足的進步,但是當涉及電影和電視製作所需的詳細控制時,尤其是在視覺效果領域(VFX)所需的詳細控制。在專業的VFX Studios中,這些模型以及早期的基於圖像的模型(如穩定的擴散,Kandinsky和Flux)與一套工具一起使用,旨在完善其輸出以滿足特定的創意需求。當導演要求進行調整時說:“看起來很棒,但是我們可以使它更加[n]嗎?”時,僅僅聲明該模型缺乏進行此類調整的精確度是不夠的。
取而代之的是,AI VFX團隊將採用傳統CGI和組成技術的組合以及定制開發的工作流程,以進一步推動視頻綜合的界限。這種方法類似於使用Chrome之類的默認Web瀏覽器。它可以開箱即用,但是為了真正根據您的需求調整它,您需要安裝一些插件。
控制怪胎
在基於擴散的圖像合成領域中,最關鍵的第三方系統之一是控製網。該技術將結構化控制引入生成模型,使用戶可以使用其他輸入(例如邊緣地圖,深度圖或姿勢信息)指導圖像或視頻。
*ControlNet的各種方法允許深度>圖像(頂行),語義分割>圖像(左下)和人類和動物的姿勢引導的圖像產生(左下)。
ControlNet不僅依賴文本提示;它採用單獨的神經網絡分支或適配器來處理這些條件信號,同時保持基本模型的生成能力。這使高度自定義的輸出與用戶規格緊密一致,這對於需要精確控制組成,結構或運動的應用程序是無價的。
*具有指導姿勢,可以通過ControlNet獲得多種準確的輸出類型。 *來源:https://arxiv.org/pdf/2302.05543
但是,這些基於適配器的系統在一組內部注重的神經過程中進行外部運行,並帶有幾個缺點。適配器進行獨立培訓,當組合多個適配器時,這可能導致分支衝突,通常導致質量較低的世代。他們還引入了參數冗餘,需要每個適配器的其他計算資源和內存,從而使縮放效率低下。此外,儘管具有靈活性,但與完全微調的多條件生成的模型相比,適配器通常會產生次優的結果。這些問題可以使基於適配器的方法對需要多個控制信號無縫集成的任務效率降低。
理想情況下,ControlNet的功能將以模塊化的方式本地集成到該模型中,從而允許未來的創新,例如同時進行視頻/音頻生成或本機Lip-sync功能。當前,每個其他功能要么成為後期製作任務,要么是必須導航基礎模型敏感權重的非本地過程。
fulldit
輸入Fulldit,這是一種來自中國的新方法,將ControlNet式功能直接整合到培訓期間的生成視頻模型中,而不是將其視為事後的想法。
*從新論文中:Fulldit方法可以將身份強加,深度和相機運動納入本地一代,並且可以立即召喚這些組合。 *來源:https://arxiv.org/pdf/2503.19907
如題為“ ** fulldit:多任務視頻生成基礎模型”的論文中概述的fulldit **,將多任務條件(例如身份轉移,深度映射和攝像機移動)集成到了受過訓練的生成視頻模型的核心中。作者開發了一個原型模型,並在項目網站上提供了隨附的視頻剪輯。
**單擊以播放。 ControlNet風格的用戶示例僅使用本機訓練的基礎模型。 **來源:https://fulldit.github.io/
作者將fulldit作為本機文本對視頻(T2V)和圖像到視頻(I2V)模型的概念驗證,這些模型可為用戶提供更多的控制權,而不僅僅是圖像或文本提示。由於沒有類似的模型,研究人員創建了一個新的基準標準,稱為** FullBench **,用於評估多任務視頻,並在其設計的測試中聲稱最先進的性能。但是,由作者本身設計的FullBench的客觀性仍未經過測試,其1,400個案例的數據集可能過於限制更廣泛的結論。
Fulldit架構最吸引人的方面是它可以結合新類型的控制的潛力。作者註意:
**'在這項工作中,我們僅探索相機,身份和深度信息的控制條件。我們沒有進一步研究其他條件和模式,例如音頻,語音,點雲,對象邊界框,光流等等。儘管Fulldit的設計可以無縫地將其他模式與最小化的修改相結合,但如何快速和成本效益將現有模型適應新條件和模式仍然是一個重要的問題,仍然是進一步探索的重要問題。
儘管Fulldit代表了多任務視頻生成中的一步,但它以現有體系結構為基礎,而不是引入新的範式。儘管如此,它還是唯一具有本地集成控製網狀風格功能的視頻基礎模型,其架構旨在適應未來的創新。
**單擊以播放。從項目站點開始的用戶控制相機移動的示例。 **
該論文由Kuaishou Technology和香港中國大學的九位研究人員撰寫,標題為** Fulldit:多任務視頻生成基礎模型。在擁抱面前可以使用項目頁面和新的基準數據。
方法
Fulldit的統一注意機制旨在通過捕獲跨條件的空間和時間關係來增強跨模式表示學習。
*根據新論文,Fulldit通過全面的自我注意力整合了多個輸入條件,將它們轉換為統一的序列。相比之下,基於適配器的模型(上方最左)為每個輸入使用單獨的模塊,從而導致冗餘,衝突和較弱的性能。
與分別處理每個輸入流的基於適配器的設置不同,Fulldit的共享注意力結構避免了分支衝突並減少了參數開銷。作者聲稱,體系結構可以擴展到新的輸入類型,而無需重新設計,並且模型架構顯示了概括到訓練過程中未看到的條件組合的跡象,例如將攝像頭運動與角色身份鏈接。
**單擊以播放。項目網站的身份生成示例**。
在Fulldit的體系結構中,所有條件輸入(例如文本,相機運動,身份和深度)首先轉換為統一的令牌格式。然後將這些令牌連接成一個單個長序列,並使用完整的自我注意力通過一堆變壓器層進行處理。這種方法遵循了開放式計劃和電影將軍等先前作品。
該設計使模型可以在所有條件下共同學習時間和空間關係。每個變壓器塊在整個序列上都可以運行,從而實現了模態之間的動態交互,而無需依賴每個輸入的單獨模塊。該體系結構的設計為可擴展,使得將來更容易合併其他控制信號而沒有重大的結構變化。
三個的力量
Fulldit將每個控制信號轉換為標準化的令牌格式,以便可以在統一的注意框架中一起處理所有條件。對於相機運動,該模型編碼每個幀的外部參數(例如位置和方向)的序列。這些參數是時間戳,並投影到反映信號時間性質的嵌入向量中。
身份信息的處理方式有所不同,因為它固有地是空間而不是時間。該模型使用標識圖,指示每個幀的哪些部分都存在哪些字符。這些地圖分為補丁,每個貼片都投影到捕獲空間身份提示的嵌入式中,從而使模型可以將框架的特定區域與特定實體相關聯。
深度是一個時空信號,該模型通過將深度視頻分為跨越空間和時間的3D貼片來處理它。然後,將這些貼片嵌入,以保持其跨幀的結構。
一旦嵌入,所有這些條件令牌(相機,身份和深度)都會串聯爲一個長序列,從而使Fulldit可以使用完整的自我注意力將它們一起處理。這種共享表示形式使模型能夠在跨時間和跨時間學習互動,而無需依賴孤立的處理流。
數據和測試
Fulldit的培訓方法依賴於針對每種調節類型的選擇性註釋的數據集,而不是要求同時存在所有條件。
對於文本條件,該計劃遵循Miradata項目中概述的結構化字幕方法。
*來自Miradata項目的視頻收集和註釋管道。 *來源:https://arxiv.org/pdf/2407.06358
對於攝像機運動,由於攝像機參數的高質量地面真相註釋,RealEstate10K數據集是主要數據源。但是,作者觀察到,在像RealEstate10k這樣的靜態相機數據集上僅培訓往往會減少生成視頻中的動態對象和人類運動。為了抵消這一點,他們使用內部數據集進行了額外的微調,其中包括更多動態的攝像頭動作。
使用為概念主項目開發的管道生成身份註釋,該計劃允許有效的過濾和提取細粒度的身份信息。
*概念主框架旨在解決身份解耦問題,同時保留定制視頻中的概念保真度。 *來源:https://arxiv.org/pdf/2501.04698
深度註釋是使用深度任何東西從熊貓-70m數據集獲得的。
通過數據順序優化
作者還實施了逐步的培訓時間表,在培訓中引入了更具挑戰性的條件,以確保在添加簡單任務之前獲得了可靠的強大表示形式。培訓順序從文本到相機條件進行,然後是身份,最後進行深度,更容易的任務稍後引入,示例較少。
作者強調以這種方式訂購工作量的價值:
**'在訓練前階段,我們注意到更具挑戰性的任務需要延長培訓時間,應在學習過程中提出。這些具有挑戰性的任務涉及復雜的數據分佈,這些數據分佈與輸出視頻有很大不同,要求該模型具有足夠的能力來準確捕獲和表示它們。 **
**'相反,過早地引入更輕鬆的任務可能會導致模型首先優先學習,因為它們提供了更直接的優化反饋,這阻礙了更具挑戰性的任務的融合。 '**
*研究人員採用的數據培訓順序的說明,紅色表明數據量更大。 *
在初始預訓練之後,最終的微調階段進一步完善了模型,以改善視覺質量和運動動態。此後,訓練遵循標準擴散框架的訓練:添加到視頻潛在的噪聲,以及使用嵌入式條件令牌作為指導的模型學習來預測和刪除它。
為了有效評估Fulldit並與現有方法進行了公平的比較,並且在沒有任何其他合適基準的情況下,作者引入了** FullBench ** **,這是一個由1,400個不同的測試用例組成的策劃的基準套件。
*新的FullBench基準測試的數據資源管理器實例。
每個數據點為各種條件信號(包括攝像機運動,身份和深度)提供了地面真實註釋。
指標
作者使用十個指標評估了Fulldit,涵蓋了五個主要方面:文本對齊,相機控制,身份相似性,深度準確性和一般視頻質量。
使用剪輯相似性測量文本對齊,而遵循CAMI2V的方法(在CameracTrl Project中),通過旋轉誤差(roterr),翻譯誤差(Transerr)和相機運動一致性(CAMMC)評估攝像頭控制。
使用Dino-I和Clip-I評估了身份相似性,並使用平均絕對誤差(MAE)量化了深度控制精度。
視頻質量以Miradata的三個指標來判斷:框架級剪輯相似性的平滑度;動力學基於光流動的運動距離;和Laion-Asesthetic分數,以進行視覺吸引力。
訓練
作者使用內部(未公開的)文本對視頻擴散模型訓練了Fulldit,該模型包含大約十億個參數。他們有意選擇一個適中的參數大小來保持與先前方法的比較中的公平性並確保可重複性。
由於培訓視頻的長度和分辨率有所不同,因此作者通過調整和填充視頻的大小和填充視頻標準化,每個序列每序列進行77幀,並使用應用的注意力和損失面具來優化訓練效果。
ADAM優化器的學習率在64個NVIDIA H800 GPU的集群中以1×10 -5的使用率使用,總計5,120GB的VRAM(考慮到在愛好者合成社區中,RTX 3090上的24GB仍被認為是24GB)。
該模型經過了大約32,000個步驟的培訓,每個視頻最多包含3個身份,以及20幀的相機條件和21幀的深度條件,都從總共77幀中進行了均勻採樣。
對於推斷,該模型以384×672像素的分辨率生成視頻(每秒15幀的大約5秒鐘),並使用50個擴散推理步驟和5個分類器的指導量表為5。
先驗方法
對於攝像頭評估,作者將Fulldit與MotionCtrl,Cameractrl和Cami2V進行了比較,所有模型都使用了使用RealEstate10K數據集進行了訓練,以確保一致性和公平性。
在身份條件的生成中,由於沒有可比較的開源多個認同模型,因此使用相同的培訓數據和體系結構對1B參數概念主模型進行了基準測試。
對於深度到視頻任務,與CTRL-ADAPTER和CONTRORVIDEO進行了比較。
*單任務視頻生成的定量結果。將Fulldit與MotionCtrl,Cameractrl和Cami2V進行了比較,以生成攝像機到視頻。概念主(1B參數版本),用於識別到視頻;以及用於深度到視頻的Ctrl-apapter和ControlVideo。使用其默認設置對所有模型進行評估。為了保持一致性,從每種方法中均勻地採樣了16個幀,與先前模型的輸出長度匹配。
結果表明,儘管同時處理多個調理信號,但Fulldit在與文本,攝像機運動,身份和深度控件有關的指標中取得了最新的性能。
在整體質量指標中,該系統通常優於其他方法,儘管其平滑度略低於概念師。作者在這裡評論:
**'fulldit的平滑度略低於概念主的平滑度,因為平滑度的計算基於相鄰幀之間的剪輯相似性。與概念主相比,由於Fulldit表現出明顯更大的動力學,因此平滑度度量受到相鄰幀之間的巨大變化的影響。 **
**'對於美學分數,由於評級模型有利於繪畫風格和ControlVideo的圖像,通常以這種風格生成視頻,因此在美學中獲得了很高的分數。 '**
關於定性比較,最好參考Fulldit項目網站上的示例視頻,因為PDF示例不可避免地是靜態的(並且太大,無法在此處完全複製)。
*pdf中定性結果的第一部分。請參閱源文件以獲取其他示例,這些示例太廣泛了,無法在此處複製。
作者評論:
**'Fulldit展示了優越的身份保護,並與[概念主人]相比生成具有更好動態和視覺質量的視頻。由於概念主和Fulldit在同一主鏈上接受了訓練,因此這突出了注入條件的有效性。 **
**'…[其他]結果證明了與現有的深度到視頻和攝像機和視頻方法相比,Fulldit的卓越可控性和發電質量。 '**
*PDF的fulldit輸出示例的一部分,帶有多個信號。請參閱源文件和項目網站以獲取其他示例。 *
結論
Fulldit代表了邁向更全面的視頻基礎模型的激動人心的一步,但是問題仍然是對ControlNet式功能的需求是否證明其規模的實施是合理的,尤其是對於開源項目。這些項目將難以在沒有商業支持的情況下獲得所需的龐大的GPU處理能力。
主要的挑戰是,使用深度和姿勢之類的系統通常需要對Comfyui等複雜用戶界面的不平凡熟悉。因此,這種功能性開源模型最有可能是由較小的VFX公司開發的,這些公司缺乏資源或動力來私下策劃和培訓這種模型。
另一方面,API驅動的“ Rent-An-ai”系統可能會充分動機,以為具有直接訓練的輔助控制系統的模型開發更簡單,更用戶友好的解釋方法。
**單擊以播放。深度+文本控制使用fulldit強加在視頻生成上。 **
*作者沒有指定任何已知的基本模型(即,SDXL等)*
**首次出版於2025年3月27日,星期四**












