选项
首页
新闻
在真实视频内容中揭示微妙而有影响力的AI修改

在真实视频内容中揭示微妙而有影响力的AI修改

2025-04-12
298

2019年,一段关于时任美国众议院议长南希·佩洛西的欺骗性视频广为流传。这段视频被编辑得让她看起来像是醉酒状态,清楚地提醒人们,操控媒体是多么容易误导公众。尽管手法简单,这一事件突显了即使是基本的音视频编辑也可能造成的潜在危害。

当时,深度伪造技术主要由基于自编码器的人脸替换技术主导,这些技术自2017年末以来就已经存在。这些早期系统难以实现佩洛西视频中那种细微的更改,而更专注于明显的人脸替换。

最近的‘神经情感导演’框架改变了著名人物的情绪。来源:https://www.youtube.com/watch?v=Li6W8pRDMJQ2022年的‘神经情感导演’框架改变了著名人物的情绪。 来源:https://www.youtube.com/watch?v=Li6W8pRDMJQ

快进到今天,电影和电视行业越来越探索AI驱动的后期制作编辑。这一趋势引发了兴趣与批评,因为AI实现了以往无法达到的完美主义水平。作为回应,研究社区开发了多个专注于面部捕捉“局部编辑”的项目,如扩散视频自编码器、及时拼接、ChatFace、MagicFace和DISCO。

2025年1月的MagicFace项目进行表情编辑。来源:https://arxiv.org/pdf/2501.022602025年1月的MagicFace项目进行表情编辑。 来源:https://arxiv.org/pdf/2501.02260

新面孔,新挑战

然而,创建这些细微编辑的技术进步速度远超我们的检测能力。大多数深度伪造检测方法已过时,专注于较旧的技术和数据集。直到最近来自印度研究人员的突破才改变了这一现状。

检测深度伪造中的细微局部编辑:真实视频被修改,产生带有细微变化的伪造视频,如抬高眉毛、修改性别特征以及表情向厌恶转变(此处以单帧展示)。来源:https://arxiv.org/pdf/2503.22121检测深度伪造中的细微局部编辑:真实视频被修改,产生带有细微变化的伪造视频,如抬高眉毛、修改性别特征以及表情向厌恶转变(此处以单帧展示)。 来源:https://arxiv.org/pdf/2503.22121

这项新研究针对的是细微、局部化的面部操纵检测,这类伪造往往被忽视。该方法不寻找广泛的不一致性或身份不匹配,而是聚焦于细微的表情变化或特定面部特征的微小编辑。它利用了面部动作编码系统(FACS),将面部表情分解为64个可变区域。

FACS中的部分64个表情组成部分。来源:https://www.cs.cmu.edu/~face/facs.htmFACS中的部分64个表情组成部分。 来源:https://www.cs.cmu.edu/~face/facs.htm

研究人员测试了他们的方法,对抗各种最新的编辑技术,发现其性能始终优于现有解决方案,即使面对旧数据集和新攻击向量也是如此。

‘通过使用基于动作单元的特征来指导通过掩码自编码器(MAE)学习到的视频表示,我们的方法有效捕捉了检测细微面部编辑所需的关键局部变化。’

‘这种方法使我们能够构建一个统一的潜在表示,编码了以面部为中心的视频中的局部编辑和更广泛的更改,为深度伪造检测提供了一个全面且适应性强的解决方案。’

这篇论文题为使用动作单元引导的视频表示检测局部深度伪造操纵,由印度马德拉斯理工学院的研究人员撰写。

方法

该方法首先检测视频中的面部,并采样以面部为中心的均匀间隔帧。然后,这些帧被分解成小的三维补丁,捕捉局部的空间和时间细节。

新方法的示意图。输入视频通过面部检测处理,提取以面部为中心的均匀间隔帧,这些帧随后被分成管状补丁,并通过一个融合两个预训练前置任务的潜在表示的编码器。生成的向量随后被分类器用于判断视频是真实还是伪造。新方法的示意图。输入视频通过面部检测处理,提取以面部为中心的均匀间隔帧,这些帧随后被分成‘管状’补丁,并通过一个融合两个预训练前置任务的潜在表示的编码器。生成的向量随后被分类器用于判断视频是真实还是伪造。

每个补丁包含来自几个连续帧的小像素窗口,使模型能够学习短期运动和表情变化。这些补丁在被送入设计用于区分真实和伪造视频的编码器之前,会进行嵌入和位置编码。

通过使用结合两种学习表示的编码器,通过跨注意力机制解决检测细微操纵的挑战,旨在创建更敏感和可泛化的特征空间。

前置任务

第一种表示来自通过掩码自编码任务训练的编码器。通过隐藏视频的大部分三维补丁,编码器学会重建缺失部分,捕捉重要的时空模式,如面部运动。

前置任务训练涉及掩盖部分视频输入,并使用编码器-解码器设置重建原始帧或逐帧动作单元图,具体取决于任务。前置任务训练涉及掩盖部分视频输入,并使用编码器-解码器设置重建原始帧或逐帧动作单元图,具体取决于任务。

然而,仅此不足以检测细粒度编辑。研究人员引入了第二个编码器,训练其检测面部动作单元(AU),鼓励其关注细微深度伪造编辑常发生的局部肌肉活动。

面部动作单元(FAUs或AUs)的进一步示例。来源:https://www.eiagroup.com/the-facial-action-coding-system/面部动作单元(FAUs或AUs)的进一步示例。 来源:https://www.eiagroup.com/the-facial-action-coding-system/

在预训练后,两个编码器的输出通过跨注意力机制结合,基于动作单元的特征指导对时空特征的注意力。这产生了一个融合的潜在表示,捕捉了更广泛的运动上下文和局部表情细节,用于最终分类任务。

数据与测试

实现

该系统使用基于FaceXZoo PyTorch的面部检测框架实现,从每个视频片段中提取16个以面部为中心的帧。前置任务在CelebV-HQ数据集上训练,该数据集包含35,000个高质量面部视频。

来自源论文,CelebV-HQ数据集中用于新项目的示例。来源:https://arxiv.org/pdf/2207.12393来自源论文,CelebV-HQ数据集中用于新项目的示例。 来源:https://arxiv.org/pdf/2207.12393

一半数据被掩盖以防止过拟合。对于掩码帧重建任务,模型被训练使用L1损失预测缺失区域。对于第二个任务,模型被训练生成16个面部动作单元的映射,受到L1损失的监督。

在预训练后,编码器被融合并使用FaceForensics++数据集进行微调,该数据集包括真实和被操纵的视频。

FaceForensics++数据集自2017年以来一直是深度伪造检测的核心基石,尽管就最新的面部合成技术而言,它现在已相当过时。来源:https://www.youtube.com/watch?v=x2g48Q2I2ZQFaceForensics++数据集自2017年以来一直是深度伪造检测的核心基石,尽管就最新的面部合成技术而言,它现在已相当过时。 来源:https://www.youtube.com/watch?v=x2g48Q2I2ZQ

为解决类别不平衡问题,作者使用了Focal Loss,强调训练期间更具挑战性的样本。所有训练在一台配备24GB显存的RTX 4090 GPU上进行,使用来自VideoMAE的预训练检查点。

测试

该方法针对各种深度伪造检测技术进行了评估,重点是局部编辑的深度伪造。测试包括一系列编辑方法和较旧的深度伪造数据集,使用曲线下面积(AUC)、平均精度和平均F1分数等指标。

来自论文:对近期局部深度伪造的比较显示,提议的方法优于所有其他方法,在AUC和平均精度上比次优方法高出15至20个百分点。来自论文:对近期局部深度伪造的比较显示,提议的方法优于所有其他方法,在AUC和平均精度上比次优方法高出15至20个百分点。

作者提供了局部操纵视频的视觉比较,展示了该方法对细微编辑的卓越敏感性。

一段真实视频使用三种不同的局部操纵被更改,生成与原始视频视觉上相似的伪造视频。此处显示了代表性帧以及每种方法的平均伪造检测分数。现有的检测器难以应对这些细微编辑,而提议的模型始终分配高伪造概率,表明对局部变化的更大敏感性。一段真实视频使用三种不同的局部操纵被更改,生成与原始视频视觉上相似的伪造视频。此处显示了代表性帧以及每种方法的平均伪造检测分数。现有的检测器难以应对这些细微编辑,而提议的模型始终分配高伪造概率,表明对局部变化的更大敏感性。

研究人员指出,现有的最先进检测方法难以应对最新的深度伪造生成技术,而他们的方法显示出强大的泛化能力,实现了高AUC和平均精度分数。

在传统深度伪造数据集上的性能显示,提议的方法与领先方法保持竞争力,表明在多种操纵类型上具有强大的泛化能力。在传统深度伪造数据集上的性能显示,提议的方法与领先方法保持竞争力,表明在多种操纵类型上具有强大的泛化能力。

作者还测试了模型在现实世界条件下的可靠性,发现其对常见视频失真(如饱和度调整、高斯模糊和像素化)具有鲁棒性。

展示了检测准确性在不同视频失真下的变化。新方法在大多数情况下保持鲁棒性,AUC仅略有下降。当引入高斯噪声时,下降最为显著。展示了检测准确性在不同视频失真下的变化。新方法在大多数情况下保持鲁棒性,AUC仅略有下降。当引入高斯噪声时,下降最为显著。

结论

虽然公众通常将深度伪造视为身份替换,但AI操纵的现实更加微妙且可能更具危害性。这项新研究讨论的局部编辑可能不会引起公众注意,直到再次发生高调事件。然而,正如演员尼克·凯奇所指出的,后期制作编辑改变表演的可能性是我们都应该关注的问题。我们对面部表情的细微变化天然敏感,而上下文会极大地改变其影响。

首次发布于2025年4月2日,星期三

相关文章
YouTube将AI深度伪造检测功能扩展至政界人士、政府官员和记者 YouTube将AI深度伪造检测功能扩展至政界人士、政府官员和记者 周二,YouTube宣布将把其深度伪造(deepfake)检测技术推广至部分政府官员、政治候选人和记者。该工具可识别由人工智能生成的肖像,并允许试点参与者申请删除其认为违反YouTube政策的未经授权内容。该检测系统在经过前期测试阶段后,于去年首次向约400万名YouTube合作伙伴计划的创作者推出。与YouTube现有的用于保护版权内容的Content ID系统类似,该肖像检测功能可识别AI模拟
YouTube加强了针对政界人士、官员和记者的AI深度伪造防护措施 YouTube加强了针对政界人士、官员和记者的AI深度伪造防护措施 YouTube周二宣布,将把其用于识别AI生成深度伪造内容的肖像检测技术,扩展至针对政府官员、政治候选人和记者的试点项目。该试点项目的参与者将能够使用一款工具,查找未经授权且使用其肖像的AI生成内容,并可在内容违反YouTube政策时提交删除请求。该技术最初于去年面向YouTube合作伙伴计划中的约400万创作者推出,此前已进行过测试。该肖像检测功能的工作原理与YouTube现有的版权内容识别系统
独家报道:Luma AI推出基于 独家报道:Luma AI推出基于"统一智能"模型的创意智能助手 周四,人工智能视频生成初创公司Luma推出了Luma Agents系统,该系统旨在管理涵盖文本、图像、视频和音频的完整创意工作流程。这些智能代理由Luma的统一智能模型家族驱动,其架构经过训练成为单一的多模态推理引擎。Luma将该代理定位为广告公司、营销部门、设计工作室及企业的变革性工具。据称,这些代理不仅能规划并生成文本、图像、视频和音频内容,还能协同其他AI模型运作,包括Luma的Ray 3.
相关专题推荐
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
聊天机器人 最佳AI调情与对话训练工具:实时提升社交魅力与自信
最佳AI调情与对话训练工具:实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具,查看免费版与付费版的对比,并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具
xix.ai
代码 最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例
最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例

探索2026年最新评选出的顶级AI工具,这些工具专为自动化单元测试而设计。我们精心挑选了那些功能强大、能够改变开发流程的工具,它们能够帮助您快速生成Jest、PyTest和JUnit测试用例。在XIX.AI平台上,您可以免费查看各种选项,并通过实际测试结果以及每周更新的排名来了解它们的优劣。立即利用这些AI工具,提升您的开发效率吧!

10 个工具
xix.ai
评论 (46)
0/500
RalphMitchell
RalphMitchell 2026-05-23 20:00:21

この記事を読んで、AIによる映像改ざんがこんなに簡単にできるなんて怖いですね。ペロシ議長の例は氷山の一角で、もっと巧妙な偽動画がSNSで拡散される可能性があります。一般ユーザーとして、どうやって本物と偽物を見分ければいいのか悩みます。技術の進歩は素晴らしいけど、悪用されないための規制も必要じゃないかな🤔

JustinHarris
JustinHarris 2026-05-18 16:00:14

Honestly, this Pelosi video case is a perfect example of how 'low-tech' AI manipulation can be the most dangerous. It doesn't need deepfakes; just slowing down footage creates a narrative. Makes you wonder what subtle edits we're already consuming daily without a second thought. The real battle for truth is in these tiny, almost invisible tweaks. 😳

DavidRodriguez
DavidRodriguez 2026-04-23 22:00:49

Dieser Artikel erinnert mich daran, wie wichtig Medienkompetenz heute ist. Die Pelosi-Video-Manipulation war ja noch relativ plump, aber mit aktueller KI wird das bestimmt viel subtiler. Macht mir schon etwas Sorgen, vor Wahlen oder so. Wie soll man da noch zwischen echt und fake unterscheiden? 😕

WilliamCarter
WilliamCarter 2025-08-20 05:01:13

That Pelosi video from 2019 is wild! It’s scary how a few tweaks can make someone look totally drunk. AI’s power to mess with videos is both cool and creepy—makes you wonder what’s real anymore. 😬

JuanMartínez
JuanMartínez 2025-08-20 01:01:10

This Pelosi video incident is wild! 🤯 It’s scary how a few tweaks can make someone look totally out of it. Makes me wonder how much of what we see online is real anymore. AI’s cool, but this kind of stuff could mess with trust big time.

RyanPerez
RyanPerez 2025-07-29 20:25:16

That Pelosi video from 2019 is wild! It’s scary how a few tweaks can make someone look totally out of it. AI’s power to mess with reality is no joke—makes you wonder what’s real anymore. 🫣

OR