在真实视频内容中揭示微妙而有影响力的AI修改
2019年,一段关于时任美国众议院议长南希·佩洛西的欺骗性视频广为流传。这段视频被编辑得让她看起来像是醉酒状态,清楚地提醒人们,操控媒体是多么容易误导公众。尽管手法简单,这一事件突显了即使是基本的音视频编辑也可能造成的潜在危害。
当时,深度伪造技术主要由基于自编码器的人脸替换技术主导,这些技术自2017年末以来就已经存在。这些早期系统难以实现佩洛西视频中那种细微的更改,而更专注于明显的人脸替换。
2022年的‘神经情感导演’框架改变了著名人物的情绪。 来源:https://www.youtube.com/watch?v=Li6W8pRDMJQ
快进到今天,电影和电视行业越来越探索AI驱动的后期制作编辑。这一趋势引发了兴趣与批评,因为AI实现了以往无法达到的完美主义水平。作为回应,研究社区开发了多个专注于面部捕捉“局部编辑”的项目,如扩散视频自编码器、及时拼接、ChatFace、MagicFace和DISCO。
2025年1月的MagicFace项目进行表情编辑。 来源:https://arxiv.org/pdf/2501.02260
新面孔,新挑战
然而,创建这些细微编辑的技术进步速度远超我们的检测能力。大多数深度伪造检测方法已过时,专注于较旧的技术和数据集。直到最近来自印度研究人员的突破才改变了这一现状。
检测深度伪造中的细微局部编辑:真实视频被修改,产生带有细微变化的伪造视频,如抬高眉毛、修改性别特征以及表情向厌恶转变(此处以单帧展示)。 来源:https://arxiv.org/pdf/2503.22121
这项新研究针对的是细微、局部化的面部操纵检测,这类伪造往往被忽视。该方法不寻找广泛的不一致性或身份不匹配,而是聚焦于细微的表情变化或特定面部特征的微小编辑。它利用了面部动作编码系统(FACS),将面部表情分解为64个可变区域。
FACS中的部分64个表情组成部分。 来源:https://www.cs.cmu.edu/~face/facs.htm
研究人员测试了他们的方法,对抗各种最新的编辑技术,发现其性能始终优于现有解决方案,即使面对旧数据集和新攻击向量也是如此。
‘通过使用基于动作单元的特征来指导通过掩码自编码器(MAE)学习到的视频表示,我们的方法有效捕捉了检测细微面部编辑所需的关键局部变化。’
‘这种方法使我们能够构建一个统一的潜在表示,编码了以面部为中心的视频中的局部编辑和更广泛的更改,为深度伪造检测提供了一个全面且适应性强的解决方案。’
这篇论文题为使用动作单元引导的视频表示检测局部深度伪造操纵,由印度马德拉斯理工学院的研究人员撰写。
方法
该方法首先检测视频中的面部,并采样以面部为中心的均匀间隔帧。然后,这些帧被分解成小的三维补丁,捕捉局部的空间和时间细节。
新方法的示意图。输入视频通过面部检测处理,提取以面部为中心的均匀间隔帧,这些帧随后被分成‘管状’补丁,并通过一个融合两个预训练前置任务的潜在表示的编码器。生成的向量随后被分类器用于判断视频是真实还是伪造。
每个补丁包含来自几个连续帧的小像素窗口,使模型能够学习短期运动和表情变化。这些补丁在被送入设计用于区分真实和伪造视频的编码器之前,会进行嵌入和位置编码。
通过使用结合两种学习表示的编码器,通过跨注意力机制解决检测细微操纵的挑战,旨在创建更敏感和可泛化的特征空间。
前置任务
第一种表示来自通过掩码自编码任务训练的编码器。通过隐藏视频的大部分三维补丁,编码器学会重建缺失部分,捕捉重要的时空模式,如面部运动。
前置任务训练涉及掩盖部分视频输入,并使用编码器-解码器设置重建原始帧或逐帧动作单元图,具体取决于任务。
然而,仅此不足以检测细粒度编辑。研究人员引入了第二个编码器,训练其检测面部动作单元(AU),鼓励其关注细微深度伪造编辑常发生的局部肌肉活动。
面部动作单元(FAUs或AUs)的进一步示例。 来源:https://www.eiagroup.com/the-facial-action-coding-system/
在预训练后,两个编码器的输出通过跨注意力机制结合,基于动作单元的特征指导对时空特征的注意力。这产生了一个融合的潜在表示,捕捉了更广泛的运动上下文和局部表情细节,用于最终分类任务。
数据与测试
实现
该系统使用基于FaceXZoo PyTorch的面部检测框架实现,从每个视频片段中提取16个以面部为中心的帧。前置任务在CelebV-HQ数据集上训练,该数据集包含35,000个高质量面部视频。
来自源论文,CelebV-HQ数据集中用于新项目的示例。 来源:https://arxiv.org/pdf/2207.12393
一半数据被掩盖以防止过拟合。对于掩码帧重建任务,模型被训练使用L1损失预测缺失区域。对于第二个任务,模型被训练生成16个面部动作单元的映射,受到L1损失的监督。
在预训练后,编码器被融合并使用FaceForensics++数据集进行微调,该数据集包括真实和被操纵的视频。
FaceForensics++数据集自2017年以来一直是深度伪造检测的核心基石,尽管就最新的面部合成技术而言,它现在已相当过时。 来源:https://www.youtube.com/watch?v=x2g48Q2I2ZQ
为解决类别不平衡问题,作者使用了Focal Loss,强调训练期间更具挑战性的样本。所有训练在一台配备24GB显存的RTX 4090 GPU上进行,使用来自VideoMAE的预训练检查点。
测试
该方法针对各种深度伪造检测技术进行了评估,重点是局部编辑的深度伪造。测试包括一系列编辑方法和较旧的深度伪造数据集,使用曲线下面积(AUC)、平均精度和平均F1分数等指标。
来自论文:对近期局部深度伪造的比较显示,提议的方法优于所有其他方法,在AUC和平均精度上比次优方法高出15至20个百分点。
作者提供了局部操纵视频的视觉比较,展示了该方法对细微编辑的卓越敏感性。
一段真实视频使用三种不同的局部操纵被更改,生成与原始视频视觉上相似的伪造视频。此处显示了代表性帧以及每种方法的平均伪造检测分数。现有的检测器难以应对这些细微编辑,而提议的模型始终分配高伪造概率,表明对局部变化的更大敏感性。
研究人员指出,现有的最先进检测方法难以应对最新的深度伪造生成技术,而他们的方法显示出强大的泛化能力,实现了高AUC和平均精度分数。
在传统深度伪造数据集上的性能显示,提议的方法与领先方法保持竞争力,表明在多种操纵类型上具有强大的泛化能力。
作者还测试了模型在现实世界条件下的可靠性,发现其对常见视频失真(如饱和度调整、高斯模糊和像素化)具有鲁棒性。
展示了检测准确性在不同视频失真下的变化。新方法在大多数情况下保持鲁棒性,AUC仅略有下降。当引入高斯噪声时,下降最为显著。
结论
虽然公众通常将深度伪造视为身份替换,但AI操纵的现实更加微妙且可能更具危害性。这项新研究讨论的局部编辑可能不会引起公众注意,直到再次发生高调事件。然而,正如演员尼克·凯奇所指出的,后期制作编辑改变表演的可能性是我们都应该关注的问题。我们对面部表情的细微变化天然敏感,而上下文会极大地改变其影响。
首次发布于2025年4月2日,星期三
相关文章
在万事达卡和签证的压力下,Civitai加强了深层法规
Civitai是Internet上最杰出的AI模型存储库之一,最近对NSFW内容的政策进行了重大更改,尤其是关于名人Loras的政策。这些变化受到付款促进者万事达卡和签证的压力刺激了这些变化。名人洛拉斯,你是
Google利用AI暂停了超过3900万的广告帐户,以涉嫌欺诈
Google周三宣布,它通过在2024年在其平台上暂停了惊人的3920万个广告客户帐户,在与广告欺诈的斗争中迈出了重要一步。这一数字超过了上一年报告的三倍,展示了Google清理其AD Ecosy的加剧努力
人工智能视频生成朝着完全控制
诸如Hunyuan和Wan 2.1之类的视频基础模型已经取得了长足的进步,但是当涉及电影和电视制作所需的详细控制时,尤其是在视觉效果领域(VFX)所需的详细控制。在专业的VFX Studios中,这些模型以及早期的Image-Bas
评论 (41)
0/200
RyanPerez
2025-07-29 20:25:16
That Pelosi video from 2019 is wild! It’s scary how a few tweaks can make someone look totally out of it. AI’s power to mess with reality is no joke—makes you wonder what’s real anymore. 🫣
0
MarkRoberts
2025-04-24 10:24:54
Este herramienta de IA me mostró lo fácil que es manipular videos. El incidente de Nancy Pelosi fue un recordatorio impactante. Es aterrador pensar en cuántas noticias falsas pueden existir. Ahora estoy más atento a lo que creo en línea. ¡Cuidado, amigos! 👀
0
RobertMartin
2025-04-21 04:42:51
このAIツールは、ビデオを操作するのがどれほど簡単かを教えてくれました。ナンシー・ペロシの事件は衝撃的でした。偽ニュースがどれだけあるかと思うと恐ろしいです。オンラインで何を信じるかについて、今はもっと注意しています。みなさんも気をつけてくださいね!👀
0
PaulMartínez
2025-04-19 18:25:50
Dieses KI-Tool hat mir gezeigt, wie einfach es ist, Videos zu manipulieren! Der Vorfall mit Nancy Pelosi war ein Weckruf. Es ist beängstigend, wie viele gefälschte Nachrichten es geben könnte. Ich bin jetzt vorsichtiger mit dem, was ich online glaube. Seid wachsam, Leute! 👀
0
HarryWilliams
2025-04-19 18:17:36
This AI tool really opened my eyes to how easy it is to manipulate videos! The Nancy Pelosi incident was a wake-up call. It's scary to think how much fake news could be out there. Definitely makes me more cautious about what I believe online. Keep an eye out, folks! 👀
0
EricRoberts
2025-04-15 18:05:37
이 앱은 눈을 뜨게 합니다! AI의 미묘한 변화가 비디오의 진위성을 어떻게 망칠 수 있는지를 보여줍니다. 낸시 펠로시의 예는 경고였어요. 하지만 설명이 때때로 나에게는 너무 기술적이어서요. 더 간단하게 설명해주면 좋겠어요! 그래도 AI의 영향을 이해하는 데는 좋은 도구입니다. 👀
0
2019年,一段关于时任美国众议院议长南希·佩洛西的欺骗性视频广为流传。这段视频被编辑得让她看起来像是醉酒状态,清楚地提醒人们,操控媒体是多么容易误导公众。尽管手法简单,这一事件突显了即使是基本的音视频编辑也可能造成的潜在危害。
当时,深度伪造技术主要由基于自编码器的人脸替换技术主导,这些技术自2017年末以来就已经存在。这些早期系统难以实现佩洛西视频中那种细微的更改,而更专注于明显的人脸替换。
2022年的‘神经情感导演’框架改变了著名人物的情绪。 来源:https://www.youtube.com/watch?v=Li6W8pRDMJQ
快进到今天,电影和电视行业越来越探索AI驱动的后期制作编辑。这一趋势引发了兴趣与批评,因为AI实现了以往无法达到的完美主义水平。作为回应,研究社区开发了多个专注于面部捕捉“局部编辑”的项目,如扩散视频自编码器、及时拼接、ChatFace、MagicFace和DISCO。
2025年1月的MagicFace项目进行表情编辑。 来源:https://arxiv.org/pdf/2501.02260
新面孔,新挑战
然而,创建这些细微编辑的技术进步速度远超我们的检测能力。大多数深度伪造检测方法已过时,专注于较旧的技术和数据集。直到最近来自印度研究人员的突破才改变了这一现状。
检测深度伪造中的细微局部编辑:真实视频被修改,产生带有细微变化的伪造视频,如抬高眉毛、修改性别特征以及表情向厌恶转变(此处以单帧展示)。 来源:https://arxiv.org/pdf/2503.22121
这项新研究针对的是细微、局部化的面部操纵检测,这类伪造往往被忽视。该方法不寻找广泛的不一致性或身份不匹配,而是聚焦于细微的表情变化或特定面部特征的微小编辑。它利用了面部动作编码系统(FACS),将面部表情分解为64个可变区域。
FACS中的部分64个表情组成部分。 来源:https://www.cs.cmu.edu/~face/facs.htm
研究人员测试了他们的方法,对抗各种最新的编辑技术,发现其性能始终优于现有解决方案,即使面对旧数据集和新攻击向量也是如此。
‘通过使用基于动作单元的特征来指导通过掩码自编码器(MAE)学习到的视频表示,我们的方法有效捕捉了检测细微面部编辑所需的关键局部变化。’
‘这种方法使我们能够构建一个统一的潜在表示,编码了以面部为中心的视频中的局部编辑和更广泛的更改,为深度伪造检测提供了一个全面且适应性强的解决方案。’
这篇论文题为使用动作单元引导的视频表示检测局部深度伪造操纵,由印度马德拉斯理工学院的研究人员撰写。
方法
该方法首先检测视频中的面部,并采样以面部为中心的均匀间隔帧。然后,这些帧被分解成小的三维补丁,捕捉局部的空间和时间细节。
新方法的示意图。输入视频通过面部检测处理,提取以面部为中心的均匀间隔帧,这些帧随后被分成‘管状’补丁,并通过一个融合两个预训练前置任务的潜在表示的编码器。生成的向量随后被分类器用于判断视频是真实还是伪造。
每个补丁包含来自几个连续帧的小像素窗口,使模型能够学习短期运动和表情变化。这些补丁在被送入设计用于区分真实和伪造视频的编码器之前,会进行嵌入和位置编码。
通过使用结合两种学习表示的编码器,通过跨注意力机制解决检测细微操纵的挑战,旨在创建更敏感和可泛化的特征空间。
前置任务
第一种表示来自通过掩码自编码任务训练的编码器。通过隐藏视频的大部分三维补丁,编码器学会重建缺失部分,捕捉重要的时空模式,如面部运动。
前置任务训练涉及掩盖部分视频输入,并使用编码器-解码器设置重建原始帧或逐帧动作单元图,具体取决于任务。
然而,仅此不足以检测细粒度编辑。研究人员引入了第二个编码器,训练其检测面部动作单元(AU),鼓励其关注细微深度伪造编辑常发生的局部肌肉活动。
面部动作单元(FAUs或AUs)的进一步示例。 来源:https://www.eiagroup.com/the-facial-action-coding-system/
在预训练后,两个编码器的输出通过跨注意力机制结合,基于动作单元的特征指导对时空特征的注意力。这产生了一个融合的潜在表示,捕捉了更广泛的运动上下文和局部表情细节,用于最终分类任务。
数据与测试
实现
该系统使用基于FaceXZoo PyTorch的面部检测框架实现,从每个视频片段中提取16个以面部为中心的帧。前置任务在CelebV-HQ数据集上训练,该数据集包含35,000个高质量面部视频。
来自源论文,CelebV-HQ数据集中用于新项目的示例。 来源:https://arxiv.org/pdf/2207.12393
一半数据被掩盖以防止过拟合。对于掩码帧重建任务,模型被训练使用L1损失预测缺失区域。对于第二个任务,模型被训练生成16个面部动作单元的映射,受到L1损失的监督。
在预训练后,编码器被融合并使用FaceForensics++数据集进行微调,该数据集包括真实和被操纵的视频。
FaceForensics++数据集自2017年以来一直是深度伪造检测的核心基石,尽管就最新的面部合成技术而言,它现在已相当过时。 来源:https://www.youtube.com/watch?v=x2g48Q2I2ZQ
为解决类别不平衡问题,作者使用了Focal Loss,强调训练期间更具挑战性的样本。所有训练在一台配备24GB显存的RTX 4090 GPU上进行,使用来自VideoMAE的预训练检查点。
测试
该方法针对各种深度伪造检测技术进行了评估,重点是局部编辑的深度伪造。测试包括一系列编辑方法和较旧的深度伪造数据集,使用曲线下面积(AUC)、平均精度和平均F1分数等指标。
来自论文:对近期局部深度伪造的比较显示,提议的方法优于所有其他方法,在AUC和平均精度上比次优方法高出15至20个百分点。
作者提供了局部操纵视频的视觉比较,展示了该方法对细微编辑的卓越敏感性。
一段真实视频使用三种不同的局部操纵被更改,生成与原始视频视觉上相似的伪造视频。此处显示了代表性帧以及每种方法的平均伪造检测分数。现有的检测器难以应对这些细微编辑,而提议的模型始终分配高伪造概率,表明对局部变化的更大敏感性。
研究人员指出,现有的最先进检测方法难以应对最新的深度伪造生成技术,而他们的方法显示出强大的泛化能力,实现了高AUC和平均精度分数。
在传统深度伪造数据集上的性能显示,提议的方法与领先方法保持竞争力,表明在多种操纵类型上具有强大的泛化能力。
作者还测试了模型在现实世界条件下的可靠性,发现其对常见视频失真(如饱和度调整、高斯模糊和像素化)具有鲁棒性。
展示了检测准确性在不同视频失真下的变化。新方法在大多数情况下保持鲁棒性,AUC仅略有下降。当引入高斯噪声时,下降最为显著。
结论
虽然公众通常将深度伪造视为身份替换,但AI操纵的现实更加微妙且可能更具危害性。这项新研究讨论的局部编辑可能不会引起公众注意,直到再次发生高调事件。然而,正如演员尼克·凯奇所指出的,后期制作编辑改变表演的可能性是我们都应该关注的问题。我们对面部表情的细微变化天然敏感,而上下文会极大地改变其影响。
首次发布于2025年4月2日,星期三



That Pelosi video from 2019 is wild! It’s scary how a few tweaks can make someone look totally out of it. AI’s power to mess with reality is no joke—makes you wonder what’s real anymore. 🫣




Este herramienta de IA me mostró lo fácil que es manipular videos. El incidente de Nancy Pelosi fue un recordatorio impactante. Es aterrador pensar en cuántas noticias falsas pueden existir. Ahora estoy más atento a lo que creo en línea. ¡Cuidado, amigos! 👀




このAIツールは、ビデオを操作するのがどれほど簡単かを教えてくれました。ナンシー・ペロシの事件は衝撃的でした。偽ニュースがどれだけあるかと思うと恐ろしいです。オンラインで何を信じるかについて、今はもっと注意しています。みなさんも気をつけてくださいね!👀




Dieses KI-Tool hat mir gezeigt, wie einfach es ist, Videos zu manipulieren! Der Vorfall mit Nancy Pelosi war ein Weckruf. Es ist beängstigend, wie viele gefälschte Nachrichten es geben könnte. Ich bin jetzt vorsichtiger mit dem, was ich online glaube. Seid wachsam, Leute! 👀




This AI tool really opened my eyes to how easy it is to manipulate videos! The Nancy Pelosi incident was a wake-up call. It's scary to think how much fake news could be out there. Definitely makes me more cautious about what I believe online. Keep an eye out, folks! 👀




이 앱은 눈을 뜨게 합니다! AI의 미묘한 변화가 비디오의 진위성을 어떻게 망칠 수 있는지를 보여줍니다. 낸시 펠로시의 예는 경고였어요. 하지만 설명이 때때로 나에게는 너무 기술적이어서요. 더 간단하게 설명해주면 좋겠어요! 그래도 AI의 영향을 이해하는 데는 좋은 도구입니다. 👀












