人工智能视频生成朝着完全控制
诸如Hunyuan和Wan 2.1之类的视频基础模型已经取得了长足的进步,但是当涉及电影和电视制作所需的详细控制时,尤其是在视觉效果领域(VFX)所需的详细控制。在专业的VFX Studios中,这些模型以及早期的基于图像的模型(如稳定的扩散,Kandinsky和Flux)与一套工具一起使用,旨在完善其输出以满足特定的创意需求。当导演要求进行调整时说:“看起来很棒,但是我们可以使它更加[n]吗?”时,仅仅声明该模型缺乏进行此类调整的精确度是不够的。
取而代之的是,AI VFX团队将采用传统CGI和组成技术的组合以及定制开发的工作流程,以进一步推动视频综合的界限。这种方法类似于使用Chrome之类的默认Web浏览器。它可以开箱即用,但是为了真正根据您的需求调整它,您需要安装一些插件。
控制怪胎
在基于扩散的图像合成领域中,最关键的第三方系统之一是控制网。该技术将结构化控制引入生成模型,使用户可以使用其他输入(例如边缘地图,深度图或姿势信息)指导图像或视频。
*ControlNet的各种方法允许深度>图像(顶行),语义分割>图像(左下)和人类和动物的姿势引导的图像产生(左下)。
ControlNet不仅依赖文本提示;它采用单独的神经网络分支或适配器来处理这些条件信号,同时保持基本模型的生成能力。这使高度自定义的输出与用户规格紧密一致,这对于需要精确控制组成,结构或运动的应用程序是无价的。
*具有指导姿势,可以通过ControlNet获得多种准确的输出类型。*来源:https://arxiv.org/pdf/2302.05543
但是,这些基于适配器的系统在一组内部注重的神经过程中进行外部运行,并带有几个缺点。适配器进行独立培训,当组合多个适配器时,这可能导致分支冲突,通常导致质量较低的世代。他们还引入了参数冗余,需要每个适配器的其他计算资源和内存,从而使缩放效率低下。此外,尽管具有灵活性,但与完全微调的多条件生成的模型相比,适配器通常会产生次优的结果。这些问题可以使基于适配器的方法对需要多个控制信号无缝集成的任务效率降低。
理想情况下,ControlNet的功能将以模块化的方式本地集成到该模型中,从而允许未来的创新,例如同时进行视频/音频生成或本机Lip-sync功能。当前,每个其他功能要么成为后期制作任务,要么是必须导航基础模型敏感权重的非本地过程。
fulldit
输入Fulldit,这是一种来自中国的新方法,将ControlNet式功能直接整合到培训期间的生成视频模型中,而不是将其视为事后的想法。
*从新论文中:Fulldit方法可以将身份强加,深度和相机运动纳入本地一代,并且可以立即召唤这些组合。*来源:https://arxiv.org/pdf/2503.19907
如题为“ ** fulldit:多任务视频生成基础模型”的论文中概述的fulldit **,将多任务条件(例如身份转移,深度映射和摄像机移动)集成到了受过训练的生成视频模型的核心中。作者开发了一个原型模型,并在项目网站上提供了随附的视频剪辑。
**单击以播放。 ControlNet风格的用户示例仅使用本机训练的基础模型。**来源:https://fulldit.github.io/
作者将fulldit作为本机文本对视频(T2V)和图像到视频(I2V)模型的概念验证,这些模型可为用户提供更多的控制权,而不仅仅是图像或文本提示。由于没有类似的模型,研究人员创建了一个新的基准标准,称为** FullBench **,用于评估多任务视频,并在其设计的测试中声称最先进的性能。但是,由作者本身设计的FullBench的客观性仍未经过测试,其1,400个案例的数据集可能过于限制更广泛的结论。
Fulldit架构最吸引人的方面是它可以结合新类型的控制的潜力。作者注意:
**'在这项工作中,我们仅探索相机,身份和深度信息的控制条件。我们没有进一步研究其他条件和模式,例如音频,语音,点云,对象边界框,光流等等。尽管Fulldit的设计可以无缝地将其他模式与最小化的修改相结合,但如何快速和成本效益将现有模型适应新条件和模式仍然是一个重要的问题,仍然是进一步探索的重要问题。
尽管Fulldit代表了多任务视频生成中的一步,但它以现有体系结构为基础,而不是引入新的范式。尽管如此,它还是唯一具有本地集成控制网状风格功能的视频基础模型,其架构旨在适应未来的创新。
**单击以播放。从项目站点开始的用户控制相机移动的示例。**
该论文由Kuaishou Technology和香港中国大学的九位研究人员撰写,标题为** Fulldit:多任务视频生成基础模型。在拥抱面前可以使用项目页面和新的基准数据。
方法
Fulldit的统一注意机制旨在通过捕获跨条件的空间和时间关系来增强跨模式表示学习。
*根据新论文,Fulldit通过全面的自我注意力整合了多个输入条件,将它们转换为统一的序列。相比之下,基于适配器的模型(上方最左)为每个输入使用单独的模块,从而导致冗余,冲突和较弱的性能。
与分别处理每个输入流的基于适配器的设置不同,Fulldit的共享注意力结构避免了分支冲突并减少了参数开销。作者声称,体系结构可以扩展到新的输入类型,而无需重新设计,并且模型架构显示了概括到训练过程中未看到的条件组合的迹象,例如将摄像头运动与角色身份链接。
**单击以播放。项目网站的身份生成示例**。
在Fulldit的体系结构中,所有条件输入(例如文本,相机运动,身份和深度)首先转换为统一的令牌格式。然后将这些令牌连接成一个单个长序列,并使用完整的自我注意力通过一堆变压器层进行处理。这种方法遵循了开放式计划和电影将军等先前作品。
该设计使模型可以在所有条件下共同学习时间和空间关系。每个变压器块在整个序列上都可以运行,从而实现了模态之间的动态交互,而无需依赖每个输入的单独模块。该体系结构的设计为可扩展,使得将来更容易合并其他控制信号而没有重大的结构变化。
三个的力量
Fulldit将每个控制信号转换为标准化的令牌格式,以便可以在统一的注意框架中一起处理所有条件。对于相机运动,该模型编码每个帧的外部参数(例如位置和方向)的序列。这些参数是时间戳,并投影到反映信号时间性质的嵌入向量中。
身份信息的处理方式有所不同,因为它固有地是空间而不是时间。该模型使用标识图,指示每个帧的哪些部分都存在哪些字符。这些地图分为补丁,每个贴片都投影到捕获空间身份提示的嵌入式中,从而使模型可以将框架的特定区域与特定实体相关联。
深度是一个时空信号,该模型通过将深度视频分为跨越空间和时间的3D贴片来处理它。然后,将这些贴片嵌入,以保持其跨帧的结构。
一旦嵌入,所有这些条件令牌(相机,身份和深度)都会串联为一个长序列,从而使Fulldit可以使用完整的自我注意力将它们一起处理。这种共享表示形式使模型能够在跨时间和跨时间学习互动,而无需依赖孤立的处理流。
数据和测试
Fulldit的培训方法依赖于针对每种调节类型的选择性注释的数据集,而不是要求同时存在所有条件。
对于文本条件,该计划遵循Miradata项目中概述的结构化字幕方法。
*来自Miradata项目的视频收集和注释管道。*来源:https://arxiv.org/pdf/2407.06358
对于摄像机运动,由于摄像机参数的高质量地面真相注释,RealEstate10K数据集是主要数据源。但是,作者观察到,在像RealEstate10k这样的静态相机数据集上仅培训往往会减少生成视频中的动态对象和人类运动。为了抵消这一点,他们使用内部数据集进行了额外的微调,其中包括更多动态的摄像头动作。
使用为概念主项目开发的管道生成身份注释,该计划允许有效的过滤和提取细粒度的身份信息。
*概念主框架旨在解决身份解耦问题,同时保留定制视频中的概念保真度。*来源:https://arxiv.org/pdf/2501.04698
深度注释是使用深度任何东西从熊猫-70m数据集获得的。
通过数据顺序优化
作者还实施了逐步的培训时间表,在培训中引入了更具挑战性的条件,以确保在添加简单任务之前获得了可靠的强大表示形式。培训顺序从文本到相机条件进行,然后是身份,最后进行深度,更容易的任务稍后引入,示例较少。
作者强调以这种方式订购工作量的价值:
**'在训练前阶段,我们注意到更具挑战性的任务需要延长培训时间,应在学习过程中提出。这些具有挑战性的任务涉及复杂的数据分布,这些数据分布与输出视频有很大不同,要求该模型具有足够的能力来准确捕获和表示它们。**
**'相反,过早地引入更轻松的任务可能会导致模型首先优先学习,因为它们提供了更直接的优化反馈,这阻碍了更具挑战性的任务的融合。'**
*研究人员采用的数据培训顺序的说明,红色表明数据量更大。*
在初始预训练之后,最终的微调阶段进一步完善了模型,以改善视觉质量和运动动态。此后,训练遵循标准扩散框架的训练:添加到视频潜在的噪声,以及使用嵌入式条件令牌作为指导的模型学习来预测和删除它。
为了有效评估Fulldit并与现有方法进行了公平的比较,并且在没有任何其他合适基准的情况下,作者引入了** FullBench ** **,这是一个由1,400个不同的测试用例组成的策划的基准套件。
*新的FullBench基准测试的数据资源管理器实例。
每个数据点为各种条件信号(包括摄像机运动,身份和深度)提供了地面真实注释。
指标
作者使用十个指标评估了Fulldit,涵盖了五个主要方面:文本对齐,相机控制,身份相似性,深度准确性和一般视频质量。
使用剪辑相似性测量文本对齐,而遵循CAMI2V的方法(在CameracTrl Project中),通过旋转误差(roterr),翻译误差(Transerr)和相机运动一致性(CAMMC)评估摄像头控制。
使用Dino-I和Clip-I评估了身份相似性,并使用平均绝对误差(MAE)量化了深度控制精度。
视频质量以Miradata的三个指标来判断:框架级剪辑相似性的平滑度;动力学基于光流动的运动距离;和Laion-Asesthetic分数,以进行视觉吸引力。
训练
作者使用内部(未公开的)文本对视频扩散模型训练了Fulldit,该模型包含大约十亿个参数。他们有意选择一个适中的参数大小来保持与先前方法的比较中的公平性并确保可重复性。
由于培训视频的长度和分辨率有所不同,因此作者通过调整和填充视频的大小和填充视频标准化,每个序列每序列进行77帧,并使用应用的注意力和损失面具来优化训练效果。
ADAM优化器的学习率在64个NVIDIA H800 GPU的集群中以1×10 -5的使用率使用,总计5,120GB的VRAM(考虑到在爱好者合成社区中,RTX 3090上的24GB仍被认为是24GB)。
该模型经过了大约32,000个步骤的培训,每个视频最多包含3个身份,以及20帧的相机条件和21帧的深度条件,都从总共77帧中进行了均匀采样。
对于推断,该模型以384×672像素的分辨率生成视频(每秒15帧的大约5秒钟),并使用50个扩散推理步骤和5个分类器的指导量表为5。
先验方法
对于摄像头评估,作者将Fulldit与MotionCtrl,Cameractrl和Cami2V进行了比较,所有模型都使用了使用RealEstate10K数据集进行了训练,以确保一致性和公平性。
在身份条件的生成中,由于没有可比较的开源多个认同模型,因此使用相同的培训数据和体系结构对1B参数概念主模型进行了基准测试。
对于深度到视频任务,与CTRL-ADAPTER和CONTRORVIDEO进行了比较。
*单任务视频生成的定量结果。将Fulldit与MotionCtrl,Cameractrl和Cami2V进行了比较,以生成摄像机到视频。概念主(1B参数版本),用于识别到视频;以及用于深度到视频的Ctrl-apapter和ControlVideo。使用其默认设置对所有模型进行评估。为了保持一致性,从每种方法中均匀地采样了16个帧,与先前模型的输出长度匹配。
结果表明,尽管同时处理多个调理信号,但Fulldit在与文本,摄像机运动,身份和深度控件有关的指标中取得了最新的性能。
在整体质量指标中,该系统通常优于其他方法,尽管其平滑度略低于概念师。作者在这里评论:
**'fulldit的平滑度略低于概念主的平滑度,因为平滑度的计算基于相邻帧之间的剪辑相似性。与概念主相比,由于Fulldit表现出明显更大的动力学,因此平滑度度量受到相邻帧之间的巨大变化的影响。**
**'对于美学分数,由于评级模型有利于绘画风格和ControlVideo的图像,通常以这种风格生成视频,因此在美学中获得了很高的分数。'**
关于定性比较,最好参考Fulldit项目网站上的示例视频,因为PDF示例不可避免地是静态的(并且太大,无法在此处完全复制)。
*pdf中定性结果的第一部分。请参阅源文件以获取其他示例,这些示例太广泛了,无法在此处复制。
作者评论:
**'Fulldit展示了优越的身份保护,并与[概念主人]相比生成具有更好动态和视觉质量的视频。由于概念主和Fulldit在同一主链上接受了训练,因此这突出了注入条件的有效性。**
**'…[其他]结果证明了与现有的深度到视频和摄像机和视频方法相比,Fulldit的卓越可控性和发电质量。'**
*PDF的fulldit输出示例的一部分,带有多个信号。请参阅源文件和项目网站以获取其他示例。*
结论
Fulldit代表了迈向更全面的视频基础模型的激动人心的一步,但是问题仍然是对ControlNet式功能的需求是否证明其规模的实施是合理的,尤其是对于开源项目。这些项目将难以在没有商业支持的情况下获得所需的庞大的GPU处理能力。
主要的挑战是,使用深度和姿势之类的系统通常需要对Comfyui等复杂用户界面的不平凡熟悉。因此,这种功能性开源模型最有可能是由较小的VFX公司开发的,这些公司缺乏资源或动力来私下策划和培训这种模型。
另一方面,API驱动的“ Rent-An-ai”系统可能会充分动机,以为具有直接训练的辅助控制系统的模型开发更简单,更用户友好的解释方法。
**单击以播放。深度+文本控制使用fulldit强加在视频生成上。**
*作者没有指定任何已知的基本模型(即,SDXL等)*
**首次出版于2025年3月27日,星期四**
相关文章
在真实视频内容中揭示微妙而有影响力的AI修改
2019年,当时的美国众议院议长南希·佩洛西(Nancy Pelosi)的欺骗性视频广泛流传。该视频被编辑为使她显得陶醉,这引起了人们对操纵媒体如何误导公众多么容易被误解的视频。尽管它很简单,但这一事件突出了T
Openai计划将Sora的视频生成器带到Chatgpt
OpenAI计划将其AI视频生成工具Sora集成到其受欢迎的消费者聊天机器人Chatgpt中。公司领导人在最近的一次不和谐办公时间会议上揭示了这一点。目前,只有通过OpenAI于12月启动的专用Web应用程序才能访问Sora,允许用户
Bytedance加入DeepFake AI视频市场
Tiktok背后的人们bytedance刚刚展示了他们最新的AI创作Omnihuman-1,这令人难以置信。这个新系统可以搅动超级逼真的视频,而它的所有需求只是一个参考图像和一些音频。很酷的是,您可以调整视频的纵横比和
评论 (0)
0/200
诸如Hunyuan和Wan 2.1之类的视频基础模型已经取得了长足的进步,但是当涉及电影和电视制作所需的详细控制时,尤其是在视觉效果领域(VFX)所需的详细控制。在专业的VFX Studios中,这些模型以及早期的基于图像的模型(如稳定的扩散,Kandinsky和Flux)与一套工具一起使用,旨在完善其输出以满足特定的创意需求。当导演要求进行调整时说:“看起来很棒,但是我们可以使它更加[n]吗?”时,仅仅声明该模型缺乏进行此类调整的精确度是不够的。
取而代之的是,AI VFX团队将采用传统CGI和组成技术的组合以及定制开发的工作流程,以进一步推动视频综合的界限。这种方法类似于使用Chrome之类的默认Web浏览器。它可以开箱即用,但是为了真正根据您的需求调整它,您需要安装一些插件。
控制怪胎
在基于扩散的图像合成领域中,最关键的第三方系统之一是控制网。该技术将结构化控制引入生成模型,使用户可以使用其他输入(例如边缘地图,深度图或姿势信息)指导图像或视频。
*ControlNet的各种方法允许深度>图像(顶行),语义分割>图像(左下)和人类和动物的姿势引导的图像产生(左下)。
ControlNet不仅依赖文本提示;它采用单独的神经网络分支或适配器来处理这些条件信号,同时保持基本模型的生成能力。这使高度自定义的输出与用户规格紧密一致,这对于需要精确控制组成,结构或运动的应用程序是无价的。
*具有指导姿势,可以通过ControlNet获得多种准确的输出类型。*来源:https://arxiv.org/pdf/2302.05543
但是,这些基于适配器的系统在一组内部注重的神经过程中进行外部运行,并带有几个缺点。适配器进行独立培训,当组合多个适配器时,这可能导致分支冲突,通常导致质量较低的世代。他们还引入了参数冗余,需要每个适配器的其他计算资源和内存,从而使缩放效率低下。此外,尽管具有灵活性,但与完全微调的多条件生成的模型相比,适配器通常会产生次优的结果。这些问题可以使基于适配器的方法对需要多个控制信号无缝集成的任务效率降低。
理想情况下,ControlNet的功能将以模块化的方式本地集成到该模型中,从而允许未来的创新,例如同时进行视频/音频生成或本机Lip-sync功能。当前,每个其他功能要么成为后期制作任务,要么是必须导航基础模型敏感权重的非本地过程。
fulldit
输入Fulldit,这是一种来自中国的新方法,将ControlNet式功能直接整合到培训期间的生成视频模型中,而不是将其视为事后的想法。
*从新论文中:Fulldit方法可以将身份强加,深度和相机运动纳入本地一代,并且可以立即召唤这些组合。*来源:https://arxiv.org/pdf/2503.19907
如题为“ ** fulldit:多任务视频生成基础模型”的论文中概述的fulldit **,将多任务条件(例如身份转移,深度映射和摄像机移动)集成到了受过训练的生成视频模型的核心中。作者开发了一个原型模型,并在项目网站上提供了随附的视频剪辑。
**单击以播放。 ControlNet风格的用户示例仅使用本机训练的基础模型。**来源:https://fulldit.github.io/
作者将fulldit作为本机文本对视频(T2V)和图像到视频(I2V)模型的概念验证,这些模型可为用户提供更多的控制权,而不仅仅是图像或文本提示。由于没有类似的模型,研究人员创建了一个新的基准标准,称为** FullBench **,用于评估多任务视频,并在其设计的测试中声称最先进的性能。但是,由作者本身设计的FullBench的客观性仍未经过测试,其1,400个案例的数据集可能过于限制更广泛的结论。
Fulldit架构最吸引人的方面是它可以结合新类型的控制的潜力。作者注意:
**'在这项工作中,我们仅探索相机,身份和深度信息的控制条件。我们没有进一步研究其他条件和模式,例如音频,语音,点云,对象边界框,光流等等。尽管Fulldit的设计可以无缝地将其他模式与最小化的修改相结合,但如何快速和成本效益将现有模型适应新条件和模式仍然是一个重要的问题,仍然是进一步探索的重要问题。
尽管Fulldit代表了多任务视频生成中的一步,但它以现有体系结构为基础,而不是引入新的范式。尽管如此,它还是唯一具有本地集成控制网状风格功能的视频基础模型,其架构旨在适应未来的创新。
**单击以播放。从项目站点开始的用户控制相机移动的示例。**
该论文由Kuaishou Technology和香港中国大学的九位研究人员撰写,标题为** Fulldit:多任务视频生成基础模型。在拥抱面前可以使用项目页面和新的基准数据。
方法
Fulldit的统一注意机制旨在通过捕获跨条件的空间和时间关系来增强跨模式表示学习。
*根据新论文,Fulldit通过全面的自我注意力整合了多个输入条件,将它们转换为统一的序列。相比之下,基于适配器的模型(上方最左)为每个输入使用单独的模块,从而导致冗余,冲突和较弱的性能。
与分别处理每个输入流的基于适配器的设置不同,Fulldit的共享注意力结构避免了分支冲突并减少了参数开销。作者声称,体系结构可以扩展到新的输入类型,而无需重新设计,并且模型架构显示了概括到训练过程中未看到的条件组合的迹象,例如将摄像头运动与角色身份链接。
**单击以播放。项目网站的身份生成示例**。
在Fulldit的体系结构中,所有条件输入(例如文本,相机运动,身份和深度)首先转换为统一的令牌格式。然后将这些令牌连接成一个单个长序列,并使用完整的自我注意力通过一堆变压器层进行处理。这种方法遵循了开放式计划和电影将军等先前作品。
该设计使模型可以在所有条件下共同学习时间和空间关系。每个变压器块在整个序列上都可以运行,从而实现了模态之间的动态交互,而无需依赖每个输入的单独模块。该体系结构的设计为可扩展,使得将来更容易合并其他控制信号而没有重大的结构变化。
三个的力量
Fulldit将每个控制信号转换为标准化的令牌格式,以便可以在统一的注意框架中一起处理所有条件。对于相机运动,该模型编码每个帧的外部参数(例如位置和方向)的序列。这些参数是时间戳,并投影到反映信号时间性质的嵌入向量中。
身份信息的处理方式有所不同,因为它固有地是空间而不是时间。该模型使用标识图,指示每个帧的哪些部分都存在哪些字符。这些地图分为补丁,每个贴片都投影到捕获空间身份提示的嵌入式中,从而使模型可以将框架的特定区域与特定实体相关联。
深度是一个时空信号,该模型通过将深度视频分为跨越空间和时间的3D贴片来处理它。然后,将这些贴片嵌入,以保持其跨帧的结构。
一旦嵌入,所有这些条件令牌(相机,身份和深度)都会串联为一个长序列,从而使Fulldit可以使用完整的自我注意力将它们一起处理。这种共享表示形式使模型能够在跨时间和跨时间学习互动,而无需依赖孤立的处理流。
数据和测试
Fulldit的培训方法依赖于针对每种调节类型的选择性注释的数据集,而不是要求同时存在所有条件。
对于文本条件,该计划遵循Miradata项目中概述的结构化字幕方法。
*来自Miradata项目的视频收集和注释管道。*来源:https://arxiv.org/pdf/2407.06358
对于摄像机运动,由于摄像机参数的高质量地面真相注释,RealEstate10K数据集是主要数据源。但是,作者观察到,在像RealEstate10k这样的静态相机数据集上仅培训往往会减少生成视频中的动态对象和人类运动。为了抵消这一点,他们使用内部数据集进行了额外的微调,其中包括更多动态的摄像头动作。
使用为概念主项目开发的管道生成身份注释,该计划允许有效的过滤和提取细粒度的身份信息。
*概念主框架旨在解决身份解耦问题,同时保留定制视频中的概念保真度。*来源:https://arxiv.org/pdf/2501.04698
深度注释是使用深度任何东西从熊猫-70m数据集获得的。
通过数据顺序优化
作者还实施了逐步的培训时间表,在培训中引入了更具挑战性的条件,以确保在添加简单任务之前获得了可靠的强大表示形式。培训顺序从文本到相机条件进行,然后是身份,最后进行深度,更容易的任务稍后引入,示例较少。
作者强调以这种方式订购工作量的价值:
**'在训练前阶段,我们注意到更具挑战性的任务需要延长培训时间,应在学习过程中提出。这些具有挑战性的任务涉及复杂的数据分布,这些数据分布与输出视频有很大不同,要求该模型具有足够的能力来准确捕获和表示它们。**
**'相反,过早地引入更轻松的任务可能会导致模型首先优先学习,因为它们提供了更直接的优化反馈,这阻碍了更具挑战性的任务的融合。'**
*研究人员采用的数据培训顺序的说明,红色表明数据量更大。*
在初始预训练之后,最终的微调阶段进一步完善了模型,以改善视觉质量和运动动态。此后,训练遵循标准扩散框架的训练:添加到视频潜在的噪声,以及使用嵌入式条件令牌作为指导的模型学习来预测和删除它。
为了有效评估Fulldit并与现有方法进行了公平的比较,并且在没有任何其他合适基准的情况下,作者引入了** FullBench ** **,这是一个由1,400个不同的测试用例组成的策划的基准套件。
*新的FullBench基准测试的数据资源管理器实例。
每个数据点为各种条件信号(包括摄像机运动,身份和深度)提供了地面真实注释。
指标
作者使用十个指标评估了Fulldit,涵盖了五个主要方面:文本对齐,相机控制,身份相似性,深度准确性和一般视频质量。
使用剪辑相似性测量文本对齐,而遵循CAMI2V的方法(在CameracTrl Project中),通过旋转误差(roterr),翻译误差(Transerr)和相机运动一致性(CAMMC)评估摄像头控制。
使用Dino-I和Clip-I评估了身份相似性,并使用平均绝对误差(MAE)量化了深度控制精度。
视频质量以Miradata的三个指标来判断:框架级剪辑相似性的平滑度;动力学基于光流动的运动距离;和Laion-Asesthetic分数,以进行视觉吸引力。
训练
作者使用内部(未公开的)文本对视频扩散模型训练了Fulldit,该模型包含大约十亿个参数。他们有意选择一个适中的参数大小来保持与先前方法的比较中的公平性并确保可重复性。
由于培训视频的长度和分辨率有所不同,因此作者通过调整和填充视频的大小和填充视频标准化,每个序列每序列进行77帧,并使用应用的注意力和损失面具来优化训练效果。
ADAM优化器的学习率在64个NVIDIA H800 GPU的集群中以1×10 -5的使用率使用,总计5,120GB的VRAM(考虑到在爱好者合成社区中,RTX 3090上的24GB仍被认为是24GB)。
该模型经过了大约32,000个步骤的培训,每个视频最多包含3个身份,以及20帧的相机条件和21帧的深度条件,都从总共77帧中进行了均匀采样。
对于推断,该模型以384×672像素的分辨率生成视频(每秒15帧的大约5秒钟),并使用50个扩散推理步骤和5个分类器的指导量表为5。
先验方法
对于摄像头评估,作者将Fulldit与MotionCtrl,Cameractrl和Cami2V进行了比较,所有模型都使用了使用RealEstate10K数据集进行了训练,以确保一致性和公平性。
在身份条件的生成中,由于没有可比较的开源多个认同模型,因此使用相同的培训数据和体系结构对1B参数概念主模型进行了基准测试。
对于深度到视频任务,与CTRL-ADAPTER和CONTRORVIDEO进行了比较。
*单任务视频生成的定量结果。将Fulldit与MotionCtrl,Cameractrl和Cami2V进行了比较,以生成摄像机到视频。概念主(1B参数版本),用于识别到视频;以及用于深度到视频的Ctrl-apapter和ControlVideo。使用其默认设置对所有模型进行评估。为了保持一致性,从每种方法中均匀地采样了16个帧,与先前模型的输出长度匹配。
结果表明,尽管同时处理多个调理信号,但Fulldit在与文本,摄像机运动,身份和深度控件有关的指标中取得了最新的性能。
在整体质量指标中,该系统通常优于其他方法,尽管其平滑度略低于概念师。作者在这里评论:
**'fulldit的平滑度略低于概念主的平滑度,因为平滑度的计算基于相邻帧之间的剪辑相似性。与概念主相比,由于Fulldit表现出明显更大的动力学,因此平滑度度量受到相邻帧之间的巨大变化的影响。**
**'对于美学分数,由于评级模型有利于绘画风格和ControlVideo的图像,通常以这种风格生成视频,因此在美学中获得了很高的分数。'**
关于定性比较,最好参考Fulldit项目网站上的示例视频,因为PDF示例不可避免地是静态的(并且太大,无法在此处完全复制)。
*pdf中定性结果的第一部分。请参阅源文件以获取其他示例,这些示例太广泛了,无法在此处复制。
作者评论:
**'Fulldit展示了优越的身份保护,并与[概念主人]相比生成具有更好动态和视觉质量的视频。由于概念主和Fulldit在同一主链上接受了训练,因此这突出了注入条件的有效性。**
**'…[其他]结果证明了与现有的深度到视频和摄像机和视频方法相比,Fulldit的卓越可控性和发电质量。'**
*PDF的fulldit输出示例的一部分,带有多个信号。请参阅源文件和项目网站以获取其他示例。*
结论
Fulldit代表了迈向更全面的视频基础模型的激动人心的一步,但是问题仍然是对ControlNet式功能的需求是否证明其规模的实施是合理的,尤其是对于开源项目。这些项目将难以在没有商业支持的情况下获得所需的庞大的GPU处理能力。
主要的挑战是,使用深度和姿势之类的系统通常需要对Comfyui等复杂用户界面的不平凡熟悉。因此,这种功能性开源模型最有可能是由较小的VFX公司开发的,这些公司缺乏资源或动力来私下策划和培训这种模型。
另一方面,API驱动的“ Rent-An-ai”系统可能会充分动机,以为具有直接训练的辅助控制系统的模型开发更简单,更用户友好的解释方法。
**单击以播放。深度+文本控制使用fulldit强加在视频生成上。**
*作者没有指定任何已知的基本模型(即,SDXL等)*
**首次出版于2025年3月27日,星期四**












