选项
首页
新闻
增强AI渲染真实镜面反射的能力

增强AI渲染真实镜面反射的能力

2025-07-24
0

自从生成式AI引起广泛关注以来,计算机视觉研究人员加紧努力开发能够理解和复制物理规律的模型,过去五年尤其聚焦于模拟重力和流体动力学等挑战。

自2022年以来,潜在扩散模型(LDMs)引领生成式AI,注意力转向其在准确描绘物理现象方面的困难。这一问题在OpenAI的Sora视频模型以及近期开源的浑源视频万2.1发布后受到更多关注。

反射的挑战

研究改进LDMs对物理规律的理解主要集中在步态模拟和牛顿运动等领域,因为这些方面的不准确会削弱AI生成视频的真实性。

然而,越来越多的工作针对LDM的一个关键弱点:生成准确反射的有限能力。

来自2025年1月论文《反映现实:使扩散模型生成忠实的镜面反射》的示例,展示了“反射失败”与研究者自身方法的对比。来源:https://arxiv.org/pdf/2409.14677

来自2025年1月论文《反映现实:使扩散模型生成忠实的镜面反射》的示例,展示了“反射失败”与研究者自身方法的对比。 来源:https://arxiv.org/pdf/2409.14677

这一挑战在CGI和视频游戏中也很常见,依赖光线追踪算法来模拟光线与表面的交互,生成逼真的反射、折射和阴影。

然而,每增加一次光线反弹都会显著增加计算需求,迫使实时应用通过限制反弹次数来平衡延迟和准确性。

在传统基于3D(即CGI)场景中虚拟计算光束的表示,使用的技术和原理最早于1960年代开发,并在1982年至1993年间(从《创:战记》[1982]到《侏罗纪公园》[1993])得以实现。来源:https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

在基于3D(CGI)场景中的虚拟光束,使用1960年代的技术,在《创:战记》(1982)和《侏罗纪公园》(1993)之间得到完善。 来源:https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

例如,在镜子前渲染一个铬制茶壶涉及光线反复反弹,产生几乎无限的循环,但视觉收益甚微。通常,两到三次反弹足以产生可感知的反射,因为单次反弹会生成暗镜效果。

每次额外反弹会使渲染时间翻倍,因此高效处理反射对提升光线追踪视觉效果至关重要。

反射对于更微妙场景的真实感至关重要,例如湿润的城市街道、商店橱窗反射或角色的眼镜,物体和环境必须准确呈现。

通过传统合成技术实现的《黑客帝国》(1999)标志性场景中的双重反射模拟。

通过传统合成技术为《黑客帝国》(1999)中的场景创建的双重反射。

视觉效果的挑战

在扩散模型之前,神经辐射场(NeRF)和高斯 splatting 等新方法难以自然描绘反射。

REF2-NeRF 项目提出了一种基于 NeRF 的方法,针对玻璃柜场景,基于观看者视角建模折射和反射。这允许估计玻璃表面并分离直接光和反射光。

来自 Ref2Nerf 论文的示例。来源:https://arxiv.org/pdf/2311.17116

来自 Ref2Nerf 论文的示例。 来源:https://arxiv.org/pdf/2311.17116

其他聚焦反射的 NeRF 解决方案包括 NeRFReN、Reflecting Reality 和 Meta 的 2024 年 平面反射感知神经辐射场 项目。

对于高斯 splatting,Mirror-3DGS、Reflective Gaussian Splatting 和 RefGaussian 等项目解决了反射问题,而 2023 年的 Nero 项目引入了一种独特的神经表示方法。

MirrorVerse 突破

教授扩散模型处理反射逻辑比使用高斯 splatting 或 NeRF 等结构化方法更困难。扩散模型中可靠的反射依赖于多样化、高质量的训练数据,覆盖各种场景。

传统上,添加此类行为涉及 LoRA 或微调,但这些会偏斜输出或创建与原始模型不兼容的特定工具。

改进扩散模型需要强调反射物理的训练数据。然而,为每个弱点整理超大规模数据集成本高昂且不切实际。

尽管如此,解决方案仍在涌现,如印度的 MirrorVerse 项目,提供了一个增强的数据集和训练方法,以提升扩散模型的反射准确性。

最右侧,MirrorVerse 的结果与两种先前方法(中间两列)的对比。来源:https://arxiv.org/pdf/2504.15397

最右侧,MirrorVerse 的结果与两种先前方法(中间列)的对比。 来源:https://arxiv.org/pdf/2504.15397

如上所示,MirrorVerse 在近期努力上有所改进,但并非完美无瑕。

在右上图中,陶瓷罐略有对齐误差,在下图中,杯子的错误反射出现在不符合自然反射角度的位置。

我们将探讨此方法,不是作为最终解决方案,而是为了突出扩散模型在静态和视频格式中面临的持续挑战,其中反射数据通常与特定场景相关。

因此,LDMs 在反射准确性上可能落后于 NeRF、高斯 Splatting 和传统 CGI。

论文《MirrorVerse:推动扩散模型真实反映世界》来自班加罗尔 IISc 视觉与 AI 实验室和三星研发研究所的研究人员,附有项目页面、Hugging Face 数据集和 GitHub 代码。

方法论

研究人员强调,像 Stable Diffusion 和 Flux 这样的模型在基于反射的提示中面临困难,如下所示:

来自论文:当前最先进的文本到图像模型 SD3.5 和 Flux 在生成场景反射时,表现出生成一致且几何准确的反射的重大挑战。

来自论文:顶级文本到图像模型 SD3.5 和 Flux 在生成一致、几何准确的反射方面面临困难。

团队开发了 MirrorFusion 2.0,一个基于扩散的模型,以增强镜面反射的真实感和几何准确性。它在 MirrorGen2 数据集上训练,旨在解决泛化问题。

MirrorGen2 引入了 随机对象定位随机旋转明确对象接地,以确保在不同对象放置中生成合理的反射。

MirrorVerse 的合成数据生成模式:通过 3D-Positioner 随机定位、旋转和接地对象,应用关键增强。对象还以语义一致的组合配对,模拟复杂的空间关系和遮挡,使数据集捕捉多对象场景中更真实的交互。

MirrorVerse 的合成数据模式:通过 3D-Positioner 随机定位、旋转和接地对象,配对对象以实现真实的空间交互。

MirrorGen2 包括配对对象场景,以更好地处理反射环境中的遮挡和复杂空间排列。

论文指出:

‘类别为语义一致性配对,例如椅子与桌子。在定位主要对象后,添加次要对象而不重叠,确保不同的空间区域。’

对于对象接地,作者确保对象锚定到地面,避免合成数据中不自然的“漂浮”现象。

由于数据集创新是论文新颖性的驱动因素,我们接下来将讨论这一点。

数据与测试

SynMirrorV2

SynMirrorV2 数据集增强了反射训练数据的多样性,使用来自 Objaverse 和 Amazon Berkeley Objects (ABO) 的 3D 对象,通过 OBJECT 3DIT 和 V1 MirrorFusion 过滤,生成 66,062 个高质量对象。

来自 Objaverse 数据集的示例,用于创建新系统的精选数据集。来源:https://arxiv.org/pdf/2212.08051

Objaverse 数据集示例,用于精选数据集。 来源:https://arxiv.org/pdf/2212.08051

场景使用 CC-Textures 的纹理地板和 PolyHaven 的 HDRI 背景构建,采用全墙或矩形镜子。照明使用 45 度角的区域光。对象按比例缩放,通过镜面-相机视锥体相交定位,并在 y 轴上随机旋转,接地以避免漂浮伪影。

多对象场景使用来自 ABO 的 3,140 个语义一致配对,避免重叠以捕捉不同的遮挡和深度。

来自作者数据集的渲染视图,包含多个(超过两个)对象,展示对象分割和深度图可视化。

数据集的渲染视图,包含多个对象,展示分割和深度图。

训练过程

三阶段课程学习过程训练 MirrorFusion 2.0,以实现强大的现实世界泛化。

第一阶段从 Stable Diffusion v1.5 初始化权重,在 SynMirrorV2 的单对象分割上微调 40,000 次迭代,保持条件和生成分支活跃。

第二阶段在 SynMirrorV2 的多对象分割上微调 10,000 次迭代,以处理遮挡和复杂场景。

第三阶段增加 10,000 次迭代,使用现实世界的 MSD 数据集数据,结合 Matterport3D 深度图。

来自 MSD 数据集的示例,包含分析为深度和分割图的现实世界场景。来源:https://arxiv.org/pdf/1908.09101

MSD 数据集示例,包含深度和分割图。 来源:https://arxiv.org/pdf/1908.09101

20% 的时间省略文本提示,以优先考虑深度信息。训练使用四块 NVIDIA A100 GPU,学习率为 1e-5,每 GPU 批次大小为 4,使用 AdamW 优化器。

这种渐进式训练从简单合成场景过渡到复杂现实世界场景,以提高迁移能力。

测试

MirrorFusion 2.0 在 MirrorBenchV2 上与基线 MirrorFusion 进行测试,覆盖单对象和多对象场景,在 MSD 和 Google Scanned Objects (GSO) 数据集上进行定性测试。

评估使用 2,991 个单对象场景和 300 个双对象场景,测量 PSNR、SSIM 和 LPIPS 以评估反射质量,使用 CLIP 评估提示对齐。图像使用四个种子生成,选择最佳 SSIM 分数。

左侧:MirrorBenchV2 单对象分割上的单对象反射生成质量定量结果,MirrorFusion 2.0 优于基线,最佳结果以粗体显示。右侧:MirrorBenchV2 多对象分割上的多对象反射生成质量定量结果,使用多对象训练的 MirrorFusion 2.0 优于未使用多对象训练的版本,最佳结果以粗体显示。

左侧:MirrorBenchV2 单对象反射质量,MirrorFusion 2.0 优于基线。右侧:多对象反射质量,多对象训练改善结果。

作者指出:

‘我们的方法优于基线,多对象微调提升了复杂场景的结果。’

定性测试强调了 MirrorFusion 2.0 的改进:

MirrorBenchV2 比较:基线无法保持准确的反射和空间一致性,显示错误的椅子方向和多个对象的扭曲反射,而(作者声称)MirrorFusion 2.0 正确渲染椅子和沙发,位置、方向和结构准确。

MirrorBenchV2 比较:基线显示错误的椅子方向和扭曲反射;MirrorFusion 2.0 渲染准确。

基线在对象方向和空间伪影方面表现不佳,而在 SynMirrorV2 上训练的 MirrorFusion 2.0 保持了准确的定位和逼真的反射。

GSO 数据集结果:

GSO 数据集比较。基线错误表示对象结构,生成不完整、扭曲的反射,而(作者声称)MirrorFusion 2.0 保持空间完整性,生成准确的几何形状、颜色和细节,即使在分布外的对象上。

GSO 比较:基线扭曲对象结构;MirrorFusion 2.0 保持几何形状、颜色和细节。

作者评论:

‘MirrorFusion 2.0 准确反映细节,如抽屉把手,而基线生成不可信的结果。’

现实世界 MSD 数据集结果:

现实世界场景结果,比较 MirrorFusion、MirrorFusion 2.0 和在 MSD 数据集上微调的 MirrorFusion 2.0。作者声称,MirrorFusion 2.0 更准确地捕捉复杂场景细节,包括桌上杂乱的对象和三维环境中多个镜子的存在。由于原始论文中结果的尺寸,此处仅显示部分结果,请读者参阅原始论文以获取完整结果和更高分辨率。

MSD 结果:在 MSD 上微调的 MirrorFusion 2.0 准确捕捉复杂场景,包括杂乱对象和多个镜子。

在 MSD 上微调提高了 MirrorFusion 2.0 处理复杂现实世界场景的能力,增强了反射一致性。

用户研究发现 84% 的用户更喜欢 MirrorFusion 2.0 的输出。

用户研究结果。

用户研究结果。

结论

虽然 MirrorFusion 2.0 标志着进步,但扩散模型在反射准确性方面的基线仍然较低,即使是适度的改进也值得注意。扩散模型的架构难以保持一致的物理规律,添加数据(如本文所述)是一种标准但有限的解决方法。

未来具有更好反射数据分布的数据集可能改善结果,但这适用于许多 LDM 弱点。优先解决哪些问题仍是一个挑战。

首次发表于 2025 年 4 月 28 日,星期一

相关文章
AI驱动的室内设计:ReRoom AI改变你的空间 AI驱动的室内设计:ReRoom AI改变你的空间 想要翻新你的家但缺乏设计专长或资金聘请专业人士?人工智能正在重塑室内设计,提供用户友好的创意解决方案。ReRoom AI脱颖而出,成为游戏规则改变者,使用户能够轻松设想和规划他们的空间。这个工具赋予你重新构想室内环境的能力,提供多种风格的逼真AI生成设计。主要亮点ReRoom AI提供尖端工具,改变室内空间。上传房间照片,即时预览设计更新。平台提供多样化的设计美学,满足不同偏好。ReRoom AI
Infinite Reality以5亿美元收购Touchcast以推动AI创新 Infinite Reality以5亿美元收购Touchcast以推动AI创新 Infinite Reality,人工智能、沉浸式技术和数字媒体的领导者,已完成一笔5亿美元的现金加股票交易,收购了代理AI的先锋Touchcast。此次交易是在Infinite Reality近期以2.07亿美元收购Napster之后进行的,公司估值达到155亿美元。Infinite Reality总部位于佛罗里达州博卡拉顿,正积极扩张以打造下一代数字生态系统,常被比作元宇宙——这一概念由尼尔·
AI驱动的购物助手:Shopify集成指南 AI驱动的购物助手:Shopify集成指南 在快节奏的电子商务世界中,提供无缝的客户体验至关重要。Flyfish AI购物助手通过个性化指导和提升购买决策,改变您与客户的联系方式。本指南将引导您完成Flyfish AI在Shopify商店的安装、设置和优化,帮助您增强客户参与度并增加销售额。探索AI如何重新定义您的电子商务策略!主要功能直接从Shopify应用商店添加Flyfish AI购物助手。自定义AI的外观、名称和问候语。同步您的Sh
评论 (0)
0/200
返回顶部
OR