AIビデオ生成は完全な制御に向かって移動します
HunyuanやWAN 2.1のようなビデオファンデーションモデルは大きな進歩を遂げましたが、映画やテレビ制作、特に視覚効果(VFX)で必要な詳細なコントロールに関しては、しばしば不足しています。プロのVFXスタジオでは、これらのモデルと、安定した拡散、カンディンスキー、フラックスなどの以前の画像ベースのモデルとともに、特定の創造的な需要を満たすために出力を改良するように設計された一連のツールと併用しています。ディレクターが調整を要求して、「それは素晴らしく見えるが、もう少し[n]にすることができますか?」というようなことを言ったとき、モデルにそのような調整を行う精度がないことを単純に述べるだけでは十分ではありません。
代わりに、AI VFXチームは、ビデオ統合の境界をさらに押し上げるために、カスタム開発されたワークフローとともに、従来のCGIと組成技術の組み合わせを採用します。このアプローチは、ChromeのようなデフォルトのWebブラウザを使用することに似ています。それは箱から出して機能しますが、あなたのニーズに合わせて本当に調整するには、いくつかのプラグインをインストールする必要があります。
フリークを制御します
拡散ベースの画像合成の分野では、最も重要なサードパーティシステムの1つはコントロールネットです。この手法は、生成モデルに構造化された制御を導入し、ユーザーがエッジマップ、深度マップ、ポーズ情報などの追加の入力を使用して画像またはビデオ生成をガイドできるようにします。
*ControlNetのさまざまな方法では、深さ>画像(上列)、セマンティックセグメンテーション>イメージ(左下)、およびポーズガイド画像生成の人間と動物(左下)が可能です。
ControlNetは、テキストプロンプトだけに依存していません。ベースモデルの生成機能を維持しながら、これらのコンディショニング信号を処理するために、個別のニューラルネットワークブランチまたはアダプターを使用します。これにより、ユーザー仕様と密接に整合する高度にカスタマイズされた出力が可能になり、構成、構造、または動きを正確に制御する必要があるアプリケーションに非常に貴重になります。
*ガイドポーズをとると、ControlNetを介してさまざまな正確な出力タイプを取得できます。*出典:https://arxiv.org/pdf/2302.05543
ただし、これらのアダプターベースのシステムは、内部に焦点を当てた一連の神経プロセスで外部で動作し、いくつかの欠点があります。アダプターは独立して訓練されているため、複数のアダプターが組み合わされている場合に分岐競合につながる可能性があり、多くの場合、質の低い世代になります。また、パラメーターの冗長性も導入し、各アダプターに追加の計算リソースとメモリが必要であり、スケーリングが非効率的になります。さらに、柔軟性にもかかわらず、アダプターは、多条件生成のために完全に微調整されたモデルと比較して、しばしば最適な結果をもたらすことがよくあります。これらの問題により、アダプターベースのメソッドは、複数の制御信号のシームレスな統合を必要とするタスクに対する効果を低下させる可能性があります。
理想的には、ControlNetの機能はモジュラー形式でネイティブにモデルに統合され、同時ビデオ/オーディオ生成やネイティブリップシンク機能などの将来のイノベーションが可能になります。現在、追加の各機能は、ポストプロダクションタスクまたは基礎モデルの敏感な重みをナビゲートする必要がある非ネイティブ手順になります。
fulldit
ControlNetスタイルの機能を、後付けとして扱うのではなく、トレーニング中に生成ビデオモデルに直接統合する中国からの新しいアプローチであるFullditを入力してください。
*新しい論文から:Fullditアプローチは、アイデンティティの賦課、深さ、カメラの動きをネイティブ世代に組み込むことができ、これらの任意の組み合わせを一度に召喚することができます。*出典:https://arxiv.org/pdf/2503.19907
Fullditは、** Fulldit:Multi-Task Video Generative Foundation Model Model with Full Anteress **というタイトルのペーパーで概説されているように、訓練された生成ビデオモデルのコアにID転送、深さマッピング、カメラの動きなどのマルチタスク条件を統合します。著者は、プロジェクトサイトで利用可能なプロトタイプモデルと付随するビデオクリップを開発しました。
**クリックして再生します。ネイティブトレーニングされた基礎モデルのみを使用したControlNetスタイルのユーザーインポジションの例**出典:https://fulldit.github.io/
著者は、Fullditを、ネイティブテキストからビデオへの概念(T2V)および画像間(I2V)モデルとして、ユーザーが画像やテキストプロンプトよりも多くのコントロールを提供するものとして提示します。同様のモデルが存在しないため、研究者はマルチタスクビデオを評価するために** fullbench **と呼ばれる新しいベンチマークを作成し、考案されたテストで最先端のパフォーマンスを主張しました。ただし、著者自身によって設計されたフルベンチの客観性は、テストされていないままであり、1,400症例のデータセットは、より広範な結論には限られている可能性があります。
Fullditのアーキテクチャの最も興味深い側面は、新しいタイプのコントロールを組み込む可能性です。著者に注意してください:
** 'この作業では、カメラ、アイデンティティ、および深さ情報の制御条件のみを調査します。オーディオ、音声、ポイントクラウド、オブジェクトの境界ボックス、光学フローなどの他の条件やモダリティをさらに調査しませんでしたが、フルルディの設計は、他のモダリティを最小限のアーキテクチャの変更とシームレスに統合できますが、既存のモデルを迅速かつコスト効率的に新しい条件に適応させる方法は、さらに重要な質問です。
Fullditはマルチタスクビデオ生成の一歩前進を表していますが、新しいパラダイムを導入するのではなく、既存のアーキテクチャに基づいています。それにもかかわらず、それはネイティブに統合されたコントロールネットスタイルの機能を備えた唯一のビデオファンデーションモデルとして際立っており、そのアーキテクチャは将来のイノベーションに対応するように設計されています。
**クリックして再生します。プロジェクトサイトからのユーザー制御カメラの動きの例。**
Kuaishou Technologyの9人の研究者と香港の中国大学が執筆したこの論文は、** Fulldit:Multi-Task Video Generative Foundationモデルと題されています**。プロジェクトページと新しいベンチマークデータは、Faceの抱きしめで利用できます。
方法
Fullditの統一された注意メカニズムは、条件全体で空間的関係と時間的関係の両方をキャプチャすることにより、クロスモーダル表現学習を強化するように設計されています。
*新しい論文によると、Fullditは完全な自己触媒を通じて複数の入力条件を統合し、それらを統一されたシーケンスに変換します。対照的に、アダプターベースのモデル(上記の左端)は、各入力に個別のモジュールを使用し、冗長性、競合、パフォーマンスの低下につながります。*
各入力ストリームを個別に処理するアダプターベースのセットアップとは異なり、Fullditの共有注意構造はブランチの競合を回避し、パラメーターのオーバーヘッドを削減します。著者らは、アーキテクチャはメジャー再設計なしで新しい入力タイプにスケーリングできると主張し、モデルスキーマは、カメラの動きとキャラクターのアイデンティティをリンクするなど、トレーニング中に見られない条件の組み合わせに一般化する兆候を示していると主張しています。
**クリックして再生します。プロジェクトサイトからのID生成の例**。
Fullditのアーキテクチャでは、テキスト、カメラの動き、アイデンティティ、深さなど、すべてのコンディショニング入力が最初に統一されたトークン形式に変換されます。これらのトークンは、完全な自己触媒を使用して変圧器層のスタックを介して処理される単一の長いシーケンスに連結します。このアプローチは、オープンソラプランや映画genのような以前の作品に従います。
この設計により、モデルはすべての条件で時間的および空間的関係を共同で学習できます。各トランスブロックはシーケンス全体で動作し、各入力の個別のモジュールに依存することなく、モダリティ間の動的相互作用を可能にします。このアーキテクチャは拡張可能になるように設計されており、大きな構造的変化なしに将来、追加の制御信号を簡単に組み込むことができます。
3の力
Fullditは、各コントロール信号を標準化されたトークン形式に変換して、すべての条件を統一された注意フレームワークで一緒に処理できるようにします。カメラの動きの場合、モデルは各フレームの位置と方向などの一連の外因性パラメーターをエンコードします。これらのパラメーターはタイムスタンプされており、信号の時間的性質を反映するベクトルの埋め込みに投影されます。
アイデンティティ情報は、一時的ではなく本質的に空間的であるため、異なって扱われます。このモデルは、各フレームの一部が存在する文字を示すアイデンティティマップを使用します。これらのマップはパッチに分割され、各パッチは空間的アイデンティティキューをキャプチャする埋め込みに投影され、モデルがフレームの特定の領域を特定のエンティティに関連付けることができます。
深さは時空間信号であり、モデルは深さビデオを空間と時間の両方に及ぶ3Dパッチに分割することで処理します。これらのパッチは、フレーム全体に構造を保存する方法で埋め込まれます。
埋め込まれると、これらの条件トークン(カメラ、アイデンティティ、深さ)はすべて、単一の長いシーケンスに連結され、フルルディットが完全な自己触媒を使用して一緒に処理できるようになります。この共有表現により、モデルは、孤立した処理ストリームに依存することなく、モダリティと時間を超えて相互作用を学習できます。
データとテスト
Fullditのトレーニングアプローチは、すべての条件を同時に存在させる必要があるのではなく、各コンディショニングタイプに合わせた選択的に注釈付きのデータセットに依存していました。
テキスト条件については、このイニシアチブは、Miradataプロジェクトで概説されている構造化されたキャプションアプローチに従います。
* Miradataプロジェクトのビデオコレクションと注釈パイプライン。*出典:https://arxiv.org/pdf/2407.06358
カメラの動きの場合、Realestate10Kデータセットは、カメラパラメーターの高品質の根真実な注釈があるため、主要なデータソースでした。ただし、著者は、Realestate10Kのような静的なシーンカメラデータセットのみでトレーニングが発生したビデオで動的なオブジェクトと人間の動きを減らす傾向があることを観察しました。これに対抗するために、よりダイナミックカメラの動きを含む内部データセットを使用して、追加の微調整を実施しました。
IDアノテーションは、Conceptmasterプロジェクトのために開発されたパイプラインを使用して生成されました。これにより、微細に粒のアイデンティティ情報の効率的なフィルタリングと抽出が可能になりました。
* Conceptmaster Frameworkは、カスタマイズされたビデオでコンセプトの忠実度を維持しながら、アイデンティティの分離問題に対処するように設計されています。*出典:https://arxiv.org/pdf/2501.04698
深さの注釈は、深さのものを使用してPanda-70mデータセットから取得されました。
データ注文による最適化
著者はまた、進歩的なトレーニングスケジュールを実装し、より簡単なタスクが追加される前にモデルが獲得した堅牢な表現を確保するために、トレーニングの早い段階でより困難な条件を導入しました。トレーニングの順序は、テキストからカメラの条件、次にアイデンティティ、そして最終的に深さに進み、一般的に簡単なタスクが導入され、例が少なくなりました。
著者は、この方法でワークロードを注文する価値を強調しています。
** 'トレーニング前の段階では、より挑戦的なタスクがトレーニング時間の延長時間を要求し、学習プロセスの早い段階で紹介する必要があることに注目しました。これらの挑戦的なタスクには、出力ビデオとは大きく異なる複雑なデータ分布が含まれ、モデルがそれらを正確にキャプチャして表現するのに十分な能力を持っている必要があります。
** '逆に、より簡単なタスクを早めに導入すると、より即時の最適化フィードバックを提供し、より挑戦的なタスクの収束を妨げるため、モデルが最初に学習を優先するようにモデルが優先される可能性があります。」**
*研究者が採用したデータトレーニング注文の図。赤はデータの量が大きいことを示しています。
最初のトレーニング前に、最終的な微調整段階がモデルをさらに改良し、視覚の品質とモーションのダイナミクスを改善しました。その後、トレーニングは標準的な拡散フレームワークのそれに続きました:ビデオ潜水レートに追加されたノイズと、埋め込み条件トークンをガイダンスとして使用して、それを予測および除去することを学習します。
fullditを効果的に評価し、既存の方法との公正な比較を提供するために、および他の適用ベンチマークがない場合、著者は1,400個の異なるテストケースで構成されるキュレーションされたベンチマークスイートである** fullbench **を導入しました。
*新しいフルベンチベンチマーク用のデータエクスプローラーインスタンス
各データポイントは、カメラの動き、アイデンティティ、深さなど、さまざまなコンディショニングシグナルのグラウンドトゥルースアノテーションを提供しました。
メトリック
著者は、テキストアライメント、カメラ制御、アイデンティティの類似性、深さの精度、一般的なビデオ品質の5つの主要な側面をカバーする10のメトリックを使用してFullditを評価しました。
テキストアラインメントは、クリップの類似性を使用して測定されましたが、カメラ制御は、CAMI2Vのアプローチ(Cameractrlプロジェクト)のアプローチに従って、回転エラー(Roterr)、翻訳エラー(TranserR)、およびカメラの動きの一貫性(CAMMC)を介して評価されました。
Identyの類似性は、Dino-IとClip-Iを使用して評価され、平均絶対誤差(MAE)を使用して深さ制御の精度を定量化しました。
ビデオの品質は、Miradataの3つのメトリックで判断されました。滑らかさのためのフレームレベルのクリップの類似性。ダイナミクスの光流量ベースの動き距離。視覚的魅力のためのLaion-Aesthetic Scores。
トレーニング
著者は、約10億パラメーターを含む内部(非公開の)テキストからビデオへの拡散モデルを使用してFullditを訓練しました。彼らは意図的に、以前の方法との比較の公平性を維持し、再現性を確保するために、控えめなパラメーターサイズを選択しました。
ビデオのトレーニングの長さと解像度は異なっていたため、著者は、ビデオを共通の解像度に変更およびパディングすることで各バッチを標準化し、シーケンスごとに77フレームをサンプリングし、適用された注意と損失マスクを使用してトレーニングの有効性を最適化しました。
Adam Optimizerは、64 Nvidia H800 GPUのクラスター全体で1×10 -5の学習速度で使用され、合計5,120GBのVRAMを使用しました(熱狂的な合成コミュニティでは、RTX 3090の24GBがまだ豪華な基準と見なされていると考えてください)。
このモデルは、ビデオごとに最大3つのアイデンティティを組み込んだ約32,000ステップでトレーニングされ、20フレームのカメラ条件と21フレームの深さ条件があり、どちらも合計77フレームから均等にサンプリングされました。
推論のために、モデルは、50の拡散推論ステップと5の分類器のないガイダンススケールを使用して、384×672ピクセル(約5秒で約5秒)の解像度でビデオを生成しました。
以前の方法
カメラからビデオへの評価のために、著者はFullditをMotionCtrl、Cameractrl、およびCami2Vと比較し、すべてのモデルをRealestate10Kデータセットを使用してトレーニングし、一貫性と公平性を確保しました。
アイデンティティ条件付きの世代では、同等のオープンソースの多目的モデルが利用できなかったため、モデルは同じトレーニングデータとアーキテクチャを使用して、1Bパラメーターコンセプトマスターモデルに対してベンチマークされました。
深さからビデオへのタスクの場合、Ctrl-AdapterとControlVideoで比較が行われました。
*シングルタスクビデオ生成の定量的結果。 Fullditは、カメラからビデオへの生成のために、MotionCtrl、Cameractrl、およびCami2Vと比較されました。 Identity-to-VideoのConceptmaster(1bパラメーターバージョン)。深さからビデオへのCtrl-AdapterおよびControlVideo。すべてのモデルは、デフォルト設定を使用して評価されました。一貫性のために、各メソッドから16フレームが均一にサンプリングされ、以前のモデルの出力長と一致しました。
結果は、複数のコンディショニング信号を同時に処理しているにもかかわらず、Fullditがテキスト、カメラの動き、アイデンティティ、および深度コントロールに関連するメトリックで最先端のパフォーマンスを達成したことを示しています。
全体的な品質メトリックでは、システムは一般に他の方法よりも優れていましたが、その滑らかさはコンセプトマスターの滑らかさよりもわずかに低かったです。ここで著者はコメントしています:
** '滑らかさの計算は、隣接するフレーム間のクリップの類似性に基づいているため、fullditの滑らかさは概念マスターの滑らかさよりもわずかに低くなっています。 fullditは概念マスターと比較して大幅に大きなダイナミクスを示すため、滑らかさのメトリックは隣接するフレーム間の大きな変動によって影響を受けます。**
** '審美的なスコアの場合、評価モデルは絵画スタイルとControlVideoの画像を好むので、通常、このスタイルでビデオを生成するため、美学の高いスコアを達成します」**
定性的比較に関しては、PDFの例は必然的に静的であるため(またここでは完全に再現するには大きすぎます)、Fullditプロジェクトサイトのサンプルビデオを参照することが望ましい場合があります。
*PDFの定性的結果の最初のセクション。追加の例については、ソースペーパーを参照してください。これは、ここで再現できないほど広すぎます。*
著者のコメント:
** 'fullditは、[コンセプトマスター]と比較して、優れたアイデンティティの保存を実証し、ダイナミクスと視覚的品質を改善したビデオを生成します。 ConceptmasterとFullditは同じバックボーンで訓練されているため、これは完全に注意を払って状態注入の有効性を強調しています。**
** '…[その他]の結果は、既存の深さからビデオへの深さとカメラからビデオへのメソッドと比較して、fullditの優れた制御性と生成の品質を示しています。' **
*複数の信号を使用したFullditの出力のPDFの例のセクション。追加の例については、ソースペーパーとプロジェクトサイトを参照してください。*
結論
Fullditは、より包括的なVideo Foundationモデルへのエキサイティングなステップを表していますが、ControlNetスタイルの機能の需要が、特にオープンソースプロジェクトのために、規模の実装を正当化するかどうかという疑問が残ります。これらのプロジェクトは、商業サポートなしで必要な広大なGPU処理能力を取得するのに苦労します。
主な課題は、深さやポーズなどのシステムを使用するには、一般に、Comfyuiのような複雑なユーザーインターフェイスに些細な知識が必要であることです。したがって、この種の機能的なオープンソースモデルは、そのようなモデルを個人的にキュレートして訓練するリソースや動機が不足している小規模なVFX企業によって開発される可能性が最も高くなります。
一方、API駆動型の「Rent-an-Ai」システムは、直接訓練された補助制御システムを使用して、モデル向けのよりシンプルでユーザーフレンドリーな解釈方法を開発するために、動機付けられている可能性があります。
**クリックして再生します。 fullditを使用してビデオ生成に課される深さ+テキストコントロール。**
*著者は、既知のベースモデル(すなわち、SDXLなど)を指定していません*
** 2025年3月27日木曜日に最初に公開**
関連記事
在真實視頻內容中揭示微妙而有影響力的AI修改
2019年,當時的美國眾議院議長南希·佩洛西(Nancy Pelosi)的欺騙性視頻廣泛流傳。該視頻被編輯為使她顯得陶醉,這引起了人們對操縱媒體如何誤導公眾多麼容易被誤解的視頻。儘管它很簡單,但這一事件突出了T
Openai計劃將Sora的視頻生成器帶到Chatgpt
OpenAI計劃將其AI視頻生成工具Sora集成到其受歡迎的消費者聊天機器人Chatgpt中。公司領導人在最近的一次不和諧辦公時間會議上揭示了這一點。目前,只有通過OpenAI於12月啟動的專用Web應用程序才能訪問Sora,允許用戶
Bytedance加入DeepFake AI視頻市場
Tiktok背後的人們bytedance剛剛展示了他們最新的AI創作Omnihuman-1,這令人難以置信。這個新系統可以攪動超級逼真的視頻,而它的所有需求只是一個參考圖像和一些音頻。很酷的是,您可以調整視頻的縱橫比和
コメント (0)
0/200
HunyuanやWAN 2.1のようなビデオファンデーションモデルは大きな進歩を遂げましたが、映画やテレビ制作、特に視覚効果(VFX)で必要な詳細なコントロールに関しては、しばしば不足しています。プロのVFXスタジオでは、これらのモデルと、安定した拡散、カンディンスキー、フラックスなどの以前の画像ベースのモデルとともに、特定の創造的な需要を満たすために出力を改良するように設計された一連のツールと併用しています。ディレクターが調整を要求して、「それは素晴らしく見えるが、もう少し[n]にすることができますか?」というようなことを言ったとき、モデルにそのような調整を行う精度がないことを単純に述べるだけでは十分ではありません。
代わりに、AI VFXチームは、ビデオ統合の境界をさらに押し上げるために、カスタム開発されたワークフローとともに、従来のCGIと組成技術の組み合わせを採用します。このアプローチは、ChromeのようなデフォルトのWebブラウザを使用することに似ています。それは箱から出して機能しますが、あなたのニーズに合わせて本当に調整するには、いくつかのプラグインをインストールする必要があります。
フリークを制御します
拡散ベースの画像合成の分野では、最も重要なサードパーティシステムの1つはコントロールネットです。この手法は、生成モデルに構造化された制御を導入し、ユーザーがエッジマップ、深度マップ、ポーズ情報などの追加の入力を使用して画像またはビデオ生成をガイドできるようにします。
*ControlNetのさまざまな方法では、深さ>画像(上列)、セマンティックセグメンテーション>イメージ(左下)、およびポーズガイド画像生成の人間と動物(左下)が可能です。
ControlNetは、テキストプロンプトだけに依存していません。ベースモデルの生成機能を維持しながら、これらのコンディショニング信号を処理するために、個別のニューラルネットワークブランチまたはアダプターを使用します。これにより、ユーザー仕様と密接に整合する高度にカスタマイズされた出力が可能になり、構成、構造、または動きを正確に制御する必要があるアプリケーションに非常に貴重になります。
*ガイドポーズをとると、ControlNetを介してさまざまな正確な出力タイプを取得できます。*出典:https://arxiv.org/pdf/2302.05543
ただし、これらのアダプターベースのシステムは、内部に焦点を当てた一連の神経プロセスで外部で動作し、いくつかの欠点があります。アダプターは独立して訓練されているため、複数のアダプターが組み合わされている場合に分岐競合につながる可能性があり、多くの場合、質の低い世代になります。また、パラメーターの冗長性も導入し、各アダプターに追加の計算リソースとメモリが必要であり、スケーリングが非効率的になります。さらに、柔軟性にもかかわらず、アダプターは、多条件生成のために完全に微調整されたモデルと比較して、しばしば最適な結果をもたらすことがよくあります。これらの問題により、アダプターベースのメソッドは、複数の制御信号のシームレスな統合を必要とするタスクに対する効果を低下させる可能性があります。
理想的には、ControlNetの機能はモジュラー形式でネイティブにモデルに統合され、同時ビデオ/オーディオ生成やネイティブリップシンク機能などの将来のイノベーションが可能になります。現在、追加の各機能は、ポストプロダクションタスクまたは基礎モデルの敏感な重みをナビゲートする必要がある非ネイティブ手順になります。
fulldit
ControlNetスタイルの機能を、後付けとして扱うのではなく、トレーニング中に生成ビデオモデルに直接統合する中国からの新しいアプローチであるFullditを入力してください。
*新しい論文から:Fullditアプローチは、アイデンティティの賦課、深さ、カメラの動きをネイティブ世代に組み込むことができ、これらの任意の組み合わせを一度に召喚することができます。*出典:https://arxiv.org/pdf/2503.19907
Fullditは、** Fulldit:Multi-Task Video Generative Foundation Model Model with Full Anteress **というタイトルのペーパーで概説されているように、訓練された生成ビデオモデルのコアにID転送、深さマッピング、カメラの動きなどのマルチタスク条件を統合します。著者は、プロジェクトサイトで利用可能なプロトタイプモデルと付随するビデオクリップを開発しました。
**クリックして再生します。ネイティブトレーニングされた基礎モデルのみを使用したControlNetスタイルのユーザーインポジションの例**出典:https://fulldit.github.io/
著者は、Fullditを、ネイティブテキストからビデオへの概念(T2V)および画像間(I2V)モデルとして、ユーザーが画像やテキストプロンプトよりも多くのコントロールを提供するものとして提示します。同様のモデルが存在しないため、研究者はマルチタスクビデオを評価するために** fullbench **と呼ばれる新しいベンチマークを作成し、考案されたテストで最先端のパフォーマンスを主張しました。ただし、著者自身によって設計されたフルベンチの客観性は、テストされていないままであり、1,400症例のデータセットは、より広範な結論には限られている可能性があります。
Fullditのアーキテクチャの最も興味深い側面は、新しいタイプのコントロールを組み込む可能性です。著者に注意してください:
** 'この作業では、カメラ、アイデンティティ、および深さ情報の制御条件のみを調査します。オーディオ、音声、ポイントクラウド、オブジェクトの境界ボックス、光学フローなどの他の条件やモダリティをさらに調査しませんでしたが、フルルディの設計は、他のモダリティを最小限のアーキテクチャの変更とシームレスに統合できますが、既存のモデルを迅速かつコスト効率的に新しい条件に適応させる方法は、さらに重要な質問です。
Fullditはマルチタスクビデオ生成の一歩前進を表していますが、新しいパラダイムを導入するのではなく、既存のアーキテクチャに基づいています。それにもかかわらず、それはネイティブに統合されたコントロールネットスタイルの機能を備えた唯一のビデオファンデーションモデルとして際立っており、そのアーキテクチャは将来のイノベーションに対応するように設計されています。
**クリックして再生します。プロジェクトサイトからのユーザー制御カメラの動きの例。**
Kuaishou Technologyの9人の研究者と香港の中国大学が執筆したこの論文は、** Fulldit:Multi-Task Video Generative Foundationモデルと題されています**。プロジェクトページと新しいベンチマークデータは、Faceの抱きしめで利用できます。
方法
Fullditの統一された注意メカニズムは、条件全体で空間的関係と時間的関係の両方をキャプチャすることにより、クロスモーダル表現学習を強化するように設計されています。
*新しい論文によると、Fullditは完全な自己触媒を通じて複数の入力条件を統合し、それらを統一されたシーケンスに変換します。対照的に、アダプターベースのモデル(上記の左端)は、各入力に個別のモジュールを使用し、冗長性、競合、パフォーマンスの低下につながります。*
各入力ストリームを個別に処理するアダプターベースのセットアップとは異なり、Fullditの共有注意構造はブランチの競合を回避し、パラメーターのオーバーヘッドを削減します。著者らは、アーキテクチャはメジャー再設計なしで新しい入力タイプにスケーリングできると主張し、モデルスキーマは、カメラの動きとキャラクターのアイデンティティをリンクするなど、トレーニング中に見られない条件の組み合わせに一般化する兆候を示していると主張しています。
**クリックして再生します。プロジェクトサイトからのID生成の例**。
Fullditのアーキテクチャでは、テキスト、カメラの動き、アイデンティティ、深さなど、すべてのコンディショニング入力が最初に統一されたトークン形式に変換されます。これらのトークンは、完全な自己触媒を使用して変圧器層のスタックを介して処理される単一の長いシーケンスに連結します。このアプローチは、オープンソラプランや映画genのような以前の作品に従います。
この設計により、モデルはすべての条件で時間的および空間的関係を共同で学習できます。各トランスブロックはシーケンス全体で動作し、各入力の個別のモジュールに依存することなく、モダリティ間の動的相互作用を可能にします。このアーキテクチャは拡張可能になるように設計されており、大きな構造的変化なしに将来、追加の制御信号を簡単に組み込むことができます。
3の力
Fullditは、各コントロール信号を標準化されたトークン形式に変換して、すべての条件を統一された注意フレームワークで一緒に処理できるようにします。カメラの動きの場合、モデルは各フレームの位置と方向などの一連の外因性パラメーターをエンコードします。これらのパラメーターはタイムスタンプされており、信号の時間的性質を反映するベクトルの埋め込みに投影されます。
アイデンティティ情報は、一時的ではなく本質的に空間的であるため、異なって扱われます。このモデルは、各フレームの一部が存在する文字を示すアイデンティティマップを使用します。これらのマップはパッチに分割され、各パッチは空間的アイデンティティキューをキャプチャする埋め込みに投影され、モデルがフレームの特定の領域を特定のエンティティに関連付けることができます。
深さは時空間信号であり、モデルは深さビデオを空間と時間の両方に及ぶ3Dパッチに分割することで処理します。これらのパッチは、フレーム全体に構造を保存する方法で埋め込まれます。
埋め込まれると、これらの条件トークン(カメラ、アイデンティティ、深さ)はすべて、単一の長いシーケンスに連結され、フルルディットが完全な自己触媒を使用して一緒に処理できるようになります。この共有表現により、モデルは、孤立した処理ストリームに依存することなく、モダリティと時間を超えて相互作用を学習できます。
データとテスト
Fullditのトレーニングアプローチは、すべての条件を同時に存在させる必要があるのではなく、各コンディショニングタイプに合わせた選択的に注釈付きのデータセットに依存していました。
テキスト条件については、このイニシアチブは、Miradataプロジェクトで概説されている構造化されたキャプションアプローチに従います。
* Miradataプロジェクトのビデオコレクションと注釈パイプライン。*出典:https://arxiv.org/pdf/2407.06358
カメラの動きの場合、Realestate10Kデータセットは、カメラパラメーターの高品質の根真実な注釈があるため、主要なデータソースでした。ただし、著者は、Realestate10Kのような静的なシーンカメラデータセットのみでトレーニングが発生したビデオで動的なオブジェクトと人間の動きを減らす傾向があることを観察しました。これに対抗するために、よりダイナミックカメラの動きを含む内部データセットを使用して、追加の微調整を実施しました。
IDアノテーションは、Conceptmasterプロジェクトのために開発されたパイプラインを使用して生成されました。これにより、微細に粒のアイデンティティ情報の効率的なフィルタリングと抽出が可能になりました。
* Conceptmaster Frameworkは、カスタマイズされたビデオでコンセプトの忠実度を維持しながら、アイデンティティの分離問題に対処するように設計されています。*出典:https://arxiv.org/pdf/2501.04698
深さの注釈は、深さのものを使用してPanda-70mデータセットから取得されました。
データ注文による最適化
著者はまた、進歩的なトレーニングスケジュールを実装し、より簡単なタスクが追加される前にモデルが獲得した堅牢な表現を確保するために、トレーニングの早い段階でより困難な条件を導入しました。トレーニングの順序は、テキストからカメラの条件、次にアイデンティティ、そして最終的に深さに進み、一般的に簡単なタスクが導入され、例が少なくなりました。
著者は、この方法でワークロードを注文する価値を強調しています。
** 'トレーニング前の段階では、より挑戦的なタスクがトレーニング時間の延長時間を要求し、学習プロセスの早い段階で紹介する必要があることに注目しました。これらの挑戦的なタスクには、出力ビデオとは大きく異なる複雑なデータ分布が含まれ、モデルがそれらを正確にキャプチャして表現するのに十分な能力を持っている必要があります。
** '逆に、より簡単なタスクを早めに導入すると、より即時の最適化フィードバックを提供し、より挑戦的なタスクの収束を妨げるため、モデルが最初に学習を優先するようにモデルが優先される可能性があります。」**
*研究者が採用したデータトレーニング注文の図。赤はデータの量が大きいことを示しています。
最初のトレーニング前に、最終的な微調整段階がモデルをさらに改良し、視覚の品質とモーションのダイナミクスを改善しました。その後、トレーニングは標準的な拡散フレームワークのそれに続きました:ビデオ潜水レートに追加されたノイズと、埋め込み条件トークンをガイダンスとして使用して、それを予測および除去することを学習します。
fullditを効果的に評価し、既存の方法との公正な比較を提供するために、および他の適用ベンチマークがない場合、著者は1,400個の異なるテストケースで構成されるキュレーションされたベンチマークスイートである** fullbench **を導入しました。
*新しいフルベンチベンチマーク用のデータエクスプローラーインスタンス
各データポイントは、カメラの動き、アイデンティティ、深さなど、さまざまなコンディショニングシグナルのグラウンドトゥルースアノテーションを提供しました。
メトリック
著者は、テキストアライメント、カメラ制御、アイデンティティの類似性、深さの精度、一般的なビデオ品質の5つの主要な側面をカバーする10のメトリックを使用してFullditを評価しました。
テキストアラインメントは、クリップの類似性を使用して測定されましたが、カメラ制御は、CAMI2Vのアプローチ(Cameractrlプロジェクト)のアプローチに従って、回転エラー(Roterr)、翻訳エラー(TranserR)、およびカメラの動きの一貫性(CAMMC)を介して評価されました。
Identyの類似性は、Dino-IとClip-Iを使用して評価され、平均絶対誤差(MAE)を使用して深さ制御の精度を定量化しました。
ビデオの品質は、Miradataの3つのメトリックで判断されました。滑らかさのためのフレームレベルのクリップの類似性。ダイナミクスの光流量ベースの動き距離。視覚的魅力のためのLaion-Aesthetic Scores。
トレーニング
著者は、約10億パラメーターを含む内部(非公開の)テキストからビデオへの拡散モデルを使用してFullditを訓練しました。彼らは意図的に、以前の方法との比較の公平性を維持し、再現性を確保するために、控えめなパラメーターサイズを選択しました。
ビデオのトレーニングの長さと解像度は異なっていたため、著者は、ビデオを共通の解像度に変更およびパディングすることで各バッチを標準化し、シーケンスごとに77フレームをサンプリングし、適用された注意と損失マスクを使用してトレーニングの有効性を最適化しました。
Adam Optimizerは、64 Nvidia H800 GPUのクラスター全体で1×10 -5の学習速度で使用され、合計5,120GBのVRAMを使用しました(熱狂的な合成コミュニティでは、RTX 3090の24GBがまだ豪華な基準と見なされていると考えてください)。
このモデルは、ビデオごとに最大3つのアイデンティティを組み込んだ約32,000ステップでトレーニングされ、20フレームのカメラ条件と21フレームの深さ条件があり、どちらも合計77フレームから均等にサンプリングされました。
推論のために、モデルは、50の拡散推論ステップと5の分類器のないガイダンススケールを使用して、384×672ピクセル(約5秒で約5秒)の解像度でビデオを生成しました。
以前の方法
カメラからビデオへの評価のために、著者はFullditをMotionCtrl、Cameractrl、およびCami2Vと比較し、すべてのモデルをRealestate10Kデータセットを使用してトレーニングし、一貫性と公平性を確保しました。
アイデンティティ条件付きの世代では、同等のオープンソースの多目的モデルが利用できなかったため、モデルは同じトレーニングデータとアーキテクチャを使用して、1Bパラメーターコンセプトマスターモデルに対してベンチマークされました。
深さからビデオへのタスクの場合、Ctrl-AdapterとControlVideoで比較が行われました。
*シングルタスクビデオ生成の定量的結果。 Fullditは、カメラからビデオへの生成のために、MotionCtrl、Cameractrl、およびCami2Vと比較されました。 Identity-to-VideoのConceptmaster(1bパラメーターバージョン)。深さからビデオへのCtrl-AdapterおよびControlVideo。すべてのモデルは、デフォルト設定を使用して評価されました。一貫性のために、各メソッドから16フレームが均一にサンプリングされ、以前のモデルの出力長と一致しました。
結果は、複数のコンディショニング信号を同時に処理しているにもかかわらず、Fullditがテキスト、カメラの動き、アイデンティティ、および深度コントロールに関連するメトリックで最先端のパフォーマンスを達成したことを示しています。
全体的な品質メトリックでは、システムは一般に他の方法よりも優れていましたが、その滑らかさはコンセプトマスターの滑らかさよりもわずかに低かったです。ここで著者はコメントしています:
** '滑らかさの計算は、隣接するフレーム間のクリップの類似性に基づいているため、fullditの滑らかさは概念マスターの滑らかさよりもわずかに低くなっています。 fullditは概念マスターと比較して大幅に大きなダイナミクスを示すため、滑らかさのメトリックは隣接するフレーム間の大きな変動によって影響を受けます。**
** '審美的なスコアの場合、評価モデルは絵画スタイルとControlVideoの画像を好むので、通常、このスタイルでビデオを生成するため、美学の高いスコアを達成します」**
定性的比較に関しては、PDFの例は必然的に静的であるため(またここでは完全に再現するには大きすぎます)、Fullditプロジェクトサイトのサンプルビデオを参照することが望ましい場合があります。
*PDFの定性的結果の最初のセクション。追加の例については、ソースペーパーを参照してください。これは、ここで再現できないほど広すぎます。*
著者のコメント:
** 'fullditは、[コンセプトマスター]と比較して、優れたアイデンティティの保存を実証し、ダイナミクスと視覚的品質を改善したビデオを生成します。 ConceptmasterとFullditは同じバックボーンで訓練されているため、これは完全に注意を払って状態注入の有効性を強調しています。**
** '…[その他]の結果は、既存の深さからビデオへの深さとカメラからビデオへのメソッドと比較して、fullditの優れた制御性と生成の品質を示しています。' **
*複数の信号を使用したFullditの出力のPDFの例のセクション。追加の例については、ソースペーパーとプロジェクトサイトを参照してください。*
結論
Fullditは、より包括的なVideo Foundationモデルへのエキサイティングなステップを表していますが、ControlNetスタイルの機能の需要が、特にオープンソースプロジェクトのために、規模の実装を正当化するかどうかという疑問が残ります。これらのプロジェクトは、商業サポートなしで必要な広大なGPU処理能力を取得するのに苦労します。
主な課題は、深さやポーズなどのシステムを使用するには、一般に、Comfyuiのような複雑なユーザーインターフェイスに些細な知識が必要であることです。したがって、この種の機能的なオープンソースモデルは、そのようなモデルを個人的にキュレートして訓練するリソースや動機が不足している小規模なVFX企業によって開発される可能性が最も高くなります。
一方、API駆動型の「Rent-an-Ai」システムは、直接訓練された補助制御システムを使用して、モデル向けのよりシンプルでユーザーフレンドリーな解釈方法を開発するために、動機付けられている可能性があります。
**クリックして再生します。 fullditを使用してビデオ生成に課される深さ+テキストコントロール。**
*著者は、既知のベースモデル(すなわち、SDXLなど)を指定していません*
** 2025年3月27日木曜日に最初に公開**












