选项
首页
新闻
增强AI渲染真实镜面反射的能力

增强AI渲染真实镜面反射的能力

2025-07-24
207

自从生成式AI引起广泛关注以来,计算机视觉研究人员加紧努力开发能够理解和复制物理规律的模型,过去五年尤其聚焦于模拟重力和流体动力学等挑战。

自2022年以来,潜在扩散模型(LDMs)引领生成式AI,注意力转向其在准确描绘物理现象方面的困难。这一问题在OpenAI的Sora视频模型以及近期开源的浑源视频万2.1发布后受到更多关注。

反射的挑战

研究改进LDMs对物理规律的理解主要集中在步态模拟和牛顿运动等领域,因为这些方面的不准确会削弱AI生成视频的真实性。

然而,越来越多的工作针对LDM的一个关键弱点:生成准确反射的有限能力。

来自2025年1月论文《反映现实:使扩散模型生成忠实的镜面反射》的示例,展示了“反射失败”与研究者自身方法的对比。来源:https://arxiv.org/pdf/2409.14677

来自2025年1月论文《反映现实:使扩散模型生成忠实的镜面反射》的示例,展示了“反射失败”与研究者自身方法的对比。 来源:https://arxiv.org/pdf/2409.14677

这一挑战在CGI和视频游戏中也很常见,依赖光线追踪算法来模拟光线与表面的交互,生成逼真的反射、折射和阴影。

然而,每增加一次光线反弹都会显著增加计算需求,迫使实时应用通过限制反弹次数来平衡延迟和准确性。

在传统基于3D(即CGI)场景中虚拟计算光束的表示,使用的技术和原理最早于1960年代开发,并在1982年至1993年间(从《创:战记》[1982]到《侏罗纪公园》[1993])得以实现。来源:https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

在基于3D(CGI)场景中的虚拟光束,使用1960年代的技术,在《创:战记》(1982)和《侏罗纪公园》(1993)之间得到完善。 来源:https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

例如,在镜子前渲染一个铬制茶壶涉及光线反复反弹,产生几乎无限的循环,但视觉收益甚微。通常,两到三次反弹足以产生可感知的反射,因为单次反弹会生成暗镜效果。

每次额外反弹会使渲染时间翻倍,因此高效处理反射对提升光线追踪视觉效果至关重要。

反射对于更微妙场景的真实感至关重要,例如湿润的城市街道、商店橱窗反射或角色的眼镜,物体和环境必须准确呈现。

通过传统合成技术实现的《黑客帝国》(1999)标志性场景中的双重反射模拟。

通过传统合成技术为《黑客帝国》(1999)中的场景创建的双重反射。

视觉效果的挑战

在扩散模型之前,神经辐射场(NeRF)和高斯 splatting 等新方法难以自然描绘反射。

REF2-NeRF 项目提出了一种基于 NeRF 的方法,针对玻璃柜场景,基于观看者视角建模折射和反射。这允许估计玻璃表面并分离直接光和反射光。

来自 Ref2Nerf 论文的示例。来源:https://arxiv.org/pdf/2311.17116

来自 Ref2Nerf 论文的示例。 来源:https://arxiv.org/pdf/2311.17116

其他聚焦反射的 NeRF 解决方案包括 NeRFReN、Reflecting Reality 和 Meta 的 2024 年 平面反射感知神经辐射场 项目。

对于高斯 splatting,Mirror-3DGS、Reflective Gaussian Splatting 和 RefGaussian 等项目解决了反射问题,而 2023 年的 Nero 项目引入了一种独特的神经表示方法。

MirrorVerse 突破

教授扩散模型处理反射逻辑比使用高斯 splatting 或 NeRF 等结构化方法更困难。扩散模型中可靠的反射依赖于多样化、高质量的训练数据,覆盖各种场景。

传统上,添加此类行为涉及 LoRA 或微调,但这些会偏斜输出或创建与原始模型不兼容的特定工具。

改进扩散模型需要强调反射物理的训练数据。然而,为每个弱点整理超大规模数据集成本高昂且不切实际。

尽管如此,解决方案仍在涌现,如印度的 MirrorVerse 项目,提供了一个增强的数据集和训练方法,以提升扩散模型的反射准确性。

最右侧,MirrorVerse 的结果与两种先前方法(中间两列)的对比。来源:https://arxiv.org/pdf/2504.15397

最右侧,MirrorVerse 的结果与两种先前方法(中间列)的对比。 来源:https://arxiv.org/pdf/2504.15397

如上所示,MirrorVerse 在近期努力上有所改进,但并非完美无瑕。

在右上图中,陶瓷罐略有对齐误差,在下图中,杯子的错误反射出现在不符合自然反射角度的位置。

我们将探讨此方法,不是作为最终解决方案,而是为了突出扩散模型在静态和视频格式中面临的持续挑战,其中反射数据通常与特定场景相关。

因此,LDMs 在反射准确性上可能落后于 NeRF、高斯 Splatting 和传统 CGI。

论文《MirrorVerse:推动扩散模型真实反映世界》来自班加罗尔 IISc 视觉与 AI 实验室和三星研发研究所的研究人员,附有项目页面、Hugging Face 数据集和 GitHub 代码。

方法论

研究人员强调,像 Stable Diffusion 和 Flux 这样的模型在基于反射的提示中面临困难,如下所示:

来自论文:当前最先进的文本到图像模型 SD3.5 和 Flux 在生成场景反射时,表现出生成一致且几何准确的反射的重大挑战。

来自论文:顶级文本到图像模型 SD3.5 和 Flux 在生成一致、几何准确的反射方面面临困难。

团队开发了 MirrorFusion 2.0,一个基于扩散的模型,以增强镜面反射的真实感和几何准确性。它在 MirrorGen2 数据集上训练,旨在解决泛化问题。

MirrorGen2 引入了 随机对象定位随机旋转明确对象接地,以确保在不同对象放置中生成合理的反射。

MirrorVerse 的合成数据生成模式:通过 3D-Positioner 随机定位、旋转和接地对象,应用关键增强。对象还以语义一致的组合配对,模拟复杂的空间关系和遮挡,使数据集捕捉多对象场景中更真实的交互。

MirrorVerse 的合成数据模式:通过 3D-Positioner 随机定位、旋转和接地对象,配对对象以实现真实的空间交互。

MirrorGen2 包括配对对象场景,以更好地处理反射环境中的遮挡和复杂空间排列。

论文指出:

‘类别为语义一致性配对,例如椅子与桌子。在定位主要对象后,添加次要对象而不重叠,确保不同的空间区域。’

对于对象接地,作者确保对象锚定到地面,避免合成数据中不自然的“漂浮”现象。

由于数据集创新是论文新颖性的驱动因素,我们接下来将讨论这一点。

数据与测试

SynMirrorV2

SynMirrorV2 数据集增强了反射训练数据的多样性,使用来自 Objaverse 和 Amazon Berkeley Objects (ABO) 的 3D 对象,通过 OBJECT 3DIT 和 V1 MirrorFusion 过滤,生成 66,062 个高质量对象。

来自 Objaverse 数据集的示例,用于创建新系统的精选数据集。来源:https://arxiv.org/pdf/2212.08051

Objaverse 数据集示例,用于精选数据集。 来源:https://arxiv.org/pdf/2212.08051

场景使用 CC-Textures 的纹理地板和 PolyHaven 的 HDRI 背景构建,采用全墙或矩形镜子。照明使用 45 度角的区域光。对象按比例缩放,通过镜面-相机视锥体相交定位,并在 y 轴上随机旋转,接地以避免漂浮伪影。

多对象场景使用来自 ABO 的 3,140 个语义一致配对,避免重叠以捕捉不同的遮挡和深度。

来自作者数据集的渲染视图,包含多个(超过两个)对象,展示对象分割和深度图可视化。

数据集的渲染视图,包含多个对象,展示分割和深度图。

训练过程

三阶段课程学习过程训练 MirrorFusion 2.0,以实现强大的现实世界泛化。

第一阶段从 Stable Diffusion v1.5 初始化权重,在 SynMirrorV2 的单对象分割上微调 40,000 次迭代,保持条件和生成分支活跃。

第二阶段在 SynMirrorV2 的多对象分割上微调 10,000 次迭代,以处理遮挡和复杂场景。

第三阶段增加 10,000 次迭代,使用现实世界的 MSD 数据集数据,结合 Matterport3D 深度图。

来自 MSD 数据集的示例,包含分析为深度和分割图的现实世界场景。来源:https://arxiv.org/pdf/1908.09101

MSD 数据集示例,包含深度和分割图。 来源:https://arxiv.org/pdf/1908.09101

20% 的时间省略文本提示,以优先考虑深度信息。训练使用四块 NVIDIA A100 GPU,学习率为 1e-5,每 GPU 批次大小为 4,使用 AdamW 优化器。

这种渐进式训练从简单合成场景过渡到复杂现实世界场景,以提高迁移能力。

测试

MirrorFusion 2.0 在 MirrorBenchV2 上与基线 MirrorFusion 进行测试,覆盖单对象和多对象场景,在 MSD 和 Google Scanned Objects (GSO) 数据集上进行定性测试。

评估使用 2,991 个单对象场景和 300 个双对象场景,测量 PSNR、SSIM 和 LPIPS 以评估反射质量,使用 CLIP 评估提示对齐。图像使用四个种子生成,选择最佳 SSIM 分数。

左侧:MirrorBenchV2 单对象分割上的单对象反射生成质量定量结果,MirrorFusion 2.0 优于基线,最佳结果以粗体显示。右侧:MirrorBenchV2 多对象分割上的多对象反射生成质量定量结果,使用多对象训练的 MirrorFusion 2.0 优于未使用多对象训练的版本,最佳结果以粗体显示。

左侧:MirrorBenchV2 单对象反射质量,MirrorFusion 2.0 优于基线。右侧:多对象反射质量,多对象训练改善结果。

作者指出:

‘我们的方法优于基线,多对象微调提升了复杂场景的结果。’

定性测试强调了 MirrorFusion 2.0 的改进:

MirrorBenchV2 比较:基线无法保持准确的反射和空间一致性,显示错误的椅子方向和多个对象的扭曲反射,而(作者声称)MirrorFusion 2.0 正确渲染椅子和沙发,位置、方向和结构准确。

MirrorBenchV2 比较:基线显示错误的椅子方向和扭曲反射;MirrorFusion 2.0 渲染准确。

基线在对象方向和空间伪影方面表现不佳,而在 SynMirrorV2 上训练的 MirrorFusion 2.0 保持了准确的定位和逼真的反射。

GSO 数据集结果:

GSO 数据集比较。基线错误表示对象结构,生成不完整、扭曲的反射,而(作者声称)MirrorFusion 2.0 保持空间完整性,生成准确的几何形状、颜色和细节,即使在分布外的对象上。

GSO 比较:基线扭曲对象结构;MirrorFusion 2.0 保持几何形状、颜色和细节。

作者评论:

‘MirrorFusion 2.0 准确反映细节,如抽屉把手,而基线生成不可信的结果。’

现实世界 MSD 数据集结果:

现实世界场景结果,比较 MirrorFusion、MirrorFusion 2.0 和在 MSD 数据集上微调的 MirrorFusion 2.0。作者声称,MirrorFusion 2.0 更准确地捕捉复杂场景细节,包括桌上杂乱的对象和三维环境中多个镜子的存在。由于原始论文中结果的尺寸,此处仅显示部分结果,请读者参阅原始论文以获取完整结果和更高分辨率。

MSD 结果:在 MSD 上微调的 MirrorFusion 2.0 准确捕捉复杂场景,包括杂乱对象和多个镜子。

在 MSD 上微调提高了 MirrorFusion 2.0 处理复杂现实世界场景的能力,增强了反射一致性。

用户研究发现 84% 的用户更喜欢 MirrorFusion 2.0 的输出。

用户研究结果。

用户研究结果。

结论

虽然 MirrorFusion 2.0 标志着进步,但扩散模型在反射准确性方面的基线仍然较低,即使是适度的改进也值得注意。扩散模型的架构难以保持一致的物理规律,添加数据(如本文所述)是一种标准但有限的解决方法。

未来具有更好反射数据分布的数据集可能改善结果,但这适用于许多 LDM 弱点。优先解决哪些问题仍是一个挑战。

首次发表于 2025 年 4 月 28 日,星期一

相关文章
中国电信投资面壁智能,为大型语言模型及数据基础设施筹集71.3万元资金 中国电信投资面壁智能,为大型语言模型及数据基础设施筹集71.3万元资金 在大模型领域,这支“国家队”与来自清华大学的领军人物正在深化战略合作。据企查查最新企业注册数据显示,2026年3月1日,北京面壁智能科技有限公司进行了重大股权重组,正式引入了电信巨头和行业基金的投资。这一转变不仅关乎资金注入——更预示着国内大模型在公共数据平台及智能硬件领域的商业化进程将大幅提速。核心亮点:电信巨头与本土基金的双重背书此次股权变更后,面壁智能的股东结构迎来了数家重要新成员:中国电信
陶天集团加速推进AI原生转型,向实习生发放免费代币配额 陶天集团加速推进AI原生转型,向实习生发放免费代币配额 陶天集团近期推出了“AI生产力计划”,旨在通过资源配置和工具补贴,加速将AI技术融入电商运营及研发工作流程。该计划现已向所有实习生开放,使其在实习期间享有与正式员工同等的AI权限、计算配额及审批流程。自3月17日起,淘天集团员工已获授权免费使用多款付费AI工具,包括悟空和Qoder系列。这些工具支持从基础技术研发到日常办公效率提升等广泛应用场景。 通过直接提供Token配额,公司降低了使用大型语言
Glean瞄准企业级AI基础设施市场,展开抢占先机之战 Glean瞄准企业级AI基础设施市场,展开抢占先机之战 争夺企业人工智能主导权的竞争正在加速。微软正将 Copilot 嵌入 Office,谷歌则将 Gemini 整合到 Workspace 中,而 OpenAI 和 Anthropic 都在直接向企业销售产品。与此同时,如今几乎每家 SaaS 供应商都配备了人工智能助手。在各方争相掌控用户界面的热潮中,Glean却采取了一种更低调的策略:成为底层的智能架构。七年前,Glean以“职场版谷歌”的定位起家
相关专题推荐
写作 最佳AI仙侠与武侠助手:创作史诗般的修仙历程与武打场面
最佳AI仙侠与武侠助手:创作史诗般的修仙历程与武打场面

探索2026年最优秀的AI助手,助您创作史诗级的仙侠与武侠故事。XIX.AI精心整理的这份清单汇集了广受好评、能彻底改变创作格局的工具,助您驾驭修仙进阶与武术动作设计。通过实际测试对比免费与付费选项。释放您的创作潜能,今天就开始写作吧!

10 个工具
xix.ai
代码 AI移动应用开发工具:根据提示生成跨平台的Flutter与React Native代码
AI移动应用开发工具:根据提示生成跨平台的Flutter与React Native代码

探索2026年最适合Flutter和React Native的最佳AI移动应用开发工具。我们精心挑选的这些高评分工具能够提供强大的功能,帮助您根据提示生成跨平台代码。通过实际测试来对比免费选项和付费选项,让开发更加高效,从而打造出更出色的应用程序。现在就访问XIX.AI查看排名吧!

10 个工具
xix.ai
代码 最佳 AI Chrome 扩展程序生成工具:无需编程经验即可创建自定义浏览器插件
最佳 AI Chrome 扩展程序生成工具:无需编程经验即可创建自定义浏览器插件

在 XIX.AI 上探索 2026 年最佳 AI Chrome 扩展程序生成器。我们精心挑选的这份清单汇集了广受好评、不容错过的工具,让您无需编写代码即可创建自定义浏览器插件。对比免费与付费选项,查看实际测试结果,并释放您的工作效率。立即查看最新排行榜,找到最适合您的工具!

10 个工具
xix.ai
文字转语音 最佳人工智能多语言文本转语音技术:能够生成50多种语言的逼真原声发音
最佳人工智能多语言文本转语音技术:能够生成50多种语言的逼真原声发音

探索2026年最优秀的人工智能多语言文本转语音工具,这些工具能够生成50多种语言中具有真实母语口音的语音。查看我们精心挑选的排名榜单,了解免费版本与付费版本的差异,并通过实际测试来验证它们的效果。在XIX.AI上找到最适合你的语音工具,立即开启全球交流的新篇章吧。

10 个工具
xix.ai
会议助理 最适合提升协作效率的最佳人工智能会议自动化工具
最适合提升协作效率的最佳人工智能会议自动化工具

探索2026年最新评选出的顶级AI会议自动化工具,让协作变得更智能、更高效。我们精心挑选的这些工具能够有效实现笔记、总结和待办事项的自动化处理。通过实际测试和每周更新的排名,您可以了解免费选项与付费选项的差异。立即访问XIX.AI,发现最适合您需求的工具,提升团队生产力吧。

10 个工具
xix.ai
提示词 适用于基础设施即代码的 AI 提示:安全部署 Terraform 和 Docker 配置
适用于基础设施即代码的 AI 提示:安全部署 Terraform 和 Docker 配置

探索 2026 年最新、评价最高的“基础设施即代码”(Infrastructure-as-Code)AI 提示词。XIX.AI 精心挑选的提示词集可助您安全部署 Terraform 和 Docker 配置、自动化云环境搭建,并提升 DevOps 工作效率。通过实际测试对比免费与付费选项。立即探索,释放您的 AI 优势。

10 个工具
xix.ai
评论 (4)
0/500
GaryWalker
GaryWalker 2026-02-13 14:00:46

鏡の反射をリアルに描画するAIの進歩ってすごいですね!でも、これが深フェイクに悪用されたらどうなるんだろう…ちょっと怖いかも😅 反射の物理法則を理解するって、AIが現実世界を「見る」能力が向上している証拠でしょうか?

JimmyWilson
JimmyWilson 2025-08-22 03:01:25

This article on AI mirror reflections is wild! It's like teaching a robot to see itself in a funhouse mirror and actually get it right. Can't wait to see this in video games! 😎

FredGreen
FredGreen 2025-08-02 23:07:14

This article on AI rendering mirror reflections is mind-blowing! It's crazy how far computer vision has come. 😮 Makes me wonder if we'll soon see AI designing entire virtual worlds with perfect physics!

RogerNelson
RogerNelson 2025-07-28 09:20:21

This article on AI rendering realistic mirror reflections is fascinating! It’s wild to think how far computer vision has come, mimicking actual physics like that. Makes me wonder if we’ll soon see AI designing entire virtual worlds that feel totally real. 🤯

OR