在真实视频内容中揭示微妙而有影响力的AI修改
2025年04月11日
StevenWalker
42
2019年,当时的美国众议院议长南希·佩洛西(Nancy Pelosi)的欺骗性视频广泛流传。该视频被编辑为使她显得陶醉,这引起了人们对操纵媒体如何误导公众多么容易被误解的视频。尽管它很简单,但这一事件强调了甚至基本的视听编辑的潜在损害。
当时,DeepFake景观在很大程度上由基于自动编码器的面部替换技术主导,该技术自2017年底以来一直存在。这些早期系统努力地在Pelosi视频中看到了细微的变化,而是专注于更明显的面部交换。
2022年的“神经情感导演”框架改变了著名面孔的情绪。资料来源: https://www.youtube.com/watch?v=li6w8prdmjq
快进到今天,电影和电视行业越来越多地探索AI驱动的后期制作编辑。这种趋势引发了人们的兴趣和批评,因为AI使以前无法实现的完美主义水平。作为回应,研究社区开发了各种专注于面部捕获的“本地编辑”的项目,例如扩散视频自动编码器,及时缝合,Chatface,MagicFace和Disco。
与2025年1月Project MagicFace一起编辑。资料来源: https://arxiv.org/pdf/2501.02260
新面孔,新皱纹
但是,创建这些微妙的编辑的技术比我们检测到它们的能力要快得多。大多数DeepFake检测方法都过时,重点是旧技术和数据集。也就是说,直到印度研究人员最近的突破。
对深击中微妙的局部编辑的检测:实际视频会改变以产生带有细微变化的假货,例如眉毛凸起,改良的性别特征以及表达转向厌恶的转变(此处用单个框架说明)。资料来源: https://arxiv.org/pdf/2503.22121
这项新的研究针对检测微妙的局部面部操作,这种伪造经常被忽略。该方法没有寻找广泛的不一致或身份不匹配,而是在细节上进行零,例如轻微的表达转移或对特定面部特征的次要编辑。它利用面部动作编码系统(FACS)将面部表情分解为64个可变区域。
facs中的成分64个表达零件中有一些。资料来源: https://www.cs.cmu.edu/~face/facs.htm
研究人员针对各种最近的编辑方法测试了他们的方法,发现即使使用较旧的数据集和较新的攻击向量,它也始终优于现有解决方案。
``通过使用基于AU的功能来指导通过蒙版自动编码器(MAE)学到的视频表示形式,我们的方法有效地捕获了对于检测微妙的面部编辑至关重要的局部变化。
``这种方法使我们能够构建一个统一的潜在表示,该表示同时编码本地化的编辑和面部为中心的视频的更广泛的变化,从而为深击检测提供了全面且适应性的解决方案。''
该论文由Madras印度理工学院的研究人员撰写,标题为使用动作单位引导的视频表示的局部深层操作。
方法
该方法首先检测到视频中的面孔,并在这些面上以均匀间隔的框架进行采样。然后将这些框架分解为小的3D补丁,以捕获本地的空间和时间细节。
新方法的模式。输入视频通过面部检测处理,以提取均匀间隔的面部中心框架,然后将其分为“管状”贴片,并通过一个编码器,该编码器从两个预处理的借口任务中融合了潜在表示。然后,分类器使用结果向量来确定视频是真实的还是假的。
每个贴片都包含来自几个连续帧的像素的小窗口,从而使模型可以学习短期运动和表达变化。这些补丁被嵌入并在定位上进行编码,然后被送入旨在区分真实视频的编码器。
通过使用跨注意机制结合两种类型的学说表示,旨在创建一个更敏感且可推广的特征空间,可以解决检测微妙操作的挑战。
借口任务
第一个表示形式来自经过胶带自动编码任务的编码器。通过隐藏大多数视频的3D补丁,编码器学会了重建缺失的部分,从而捕获了重要的时空图案,例如面部运动。
借口任务培训涉及掩盖视频输入的一部分,并使用编码器折线设置来重建原始框架或每个框架操作单元地图,具体取决于任务。
但是,仅此一项就不足以检测细粒的编辑。研究人员介绍了第二个经过培训的编码器,以检测面部动作单元(AUS),鼓励其专注于经常发生微妙的深层效果编辑的局部肌肉活动。
面部动作单位(粮农组织或澳大利亚州)的进一步示例。资料来源: https://www.eiagroup.com/the-facial-action-coding-system/
预处理后,两个编码器的输出都使用交叉注意力组合在一起,基于AU的功能指导着对空间时端特征的注意力。这导致了融合的潜在表示,该表示既捕获更广泛的运动上下文和最终分类任务的局部表达细节。
数据和测试
执行
该系统是使用基于Facexzoo Pytorch的面部检测框架实现的,从每个视频剪辑中提取16个以面部为中心的帧。借口任务是在CelebV-HQ数据集上培训的,其中包括35,000个高质量的面部视频。
从源文件中,来自新项目中使用的CelebV-HQ数据集的示例。资料来源: https://arxiv.org/pdf/2207.12393
将一半的数据掩盖以防止过度拟合。对于蒙版的框架重建任务,该模型经过训练,可以使用L1损失来预测缺失区域。对于第二项任务,它经过培训,可以为16个面部动作单元生成地图,并受到L1损失的监督。
预处理后,使用FaceForensics ++数据集进行了融合并微调以进行深层检测,其中包括真实和操纵视频。
自2017年以来,FaceForensics ++数据集一直是DeepFake检测的基石,尽管现在已经过时了,就最新的面部合成技术而言。资料来源: https://www.youtube.com/watch?v=x2g48q2i2zq
为了解决阶级失衡,作者使用了焦点损失,强调了训练期间更具挑战性的例子。所有培训均使用Videoma的预训练的检查站对单个RTX 4090 GPU进行了24GB VRAM进行。
测试
该方法针对各种深层检测技术进行了评估,重点是本地编辑的深击。测试包括一系列编辑方法和较旧的DeepFake数据集,使用曲线下的面积(AUC),平均精度和平均F1分数等指标。
从本文中:对最近的本地化深击的比较表明,该提出的方法的表现优于其他所有方法,在次要方法中,AUC和平均精度的增长率为15%至20%。
作者提供了本地操纵视频的视觉比较,显示了他们方法对微妙编辑的敏感性。
使用三种不同的局部操作更改了真实视频,以产生与原始视觉相似的假货。此处显示的是代表性帧以及每种方法的平均伪造得分。尽管现有的检测器在这些微妙的编辑中苦苦挣扎,但拟议的模型始终分配了较高的假概率,表明对局部变化的敏感性更高。
研究人员指出,现有的最新检测方法在最新的深泡产生技术中苦苦挣扎,而他们的方法表现出强大的概括,获得了很高的AUC和平均精度得分。
在传统的DeepFake数据集上的性能表明,所提出的方法在领先的方法中仍然具有竞争力,表明在各种操纵类型中进行了强烈的概括。
作者还测试了该模型在现实世界中的可靠性,发现它与诸如饱和调整,高斯模糊和像素化之类的常见视频扭曲有弹性。
在不同的视频扭曲下如何变化的检测准确性如何变化。在大多数情况下,新方法仍然具有弹性,AUC只有很小的下降。当引入高斯噪声时,最显着的下降发生。
结论
尽管公众经常将深果作为身份互换,但人工智能操纵的现实更加细微,并且可能更阴险。在这项新研究中讨论的那种本地编辑可能直到发生另一项引人注目的事件后才吸引公众关注。然而,正如Actor Nic Cage所指出的那样,后期制作编辑改变表演的潜力是我们所有人都应该注意的问题。我们自然对面部表情的丝毫变化也很敏感,并且上下文可以极大地改变其影响。
首次发布于2025年4月2日,星期三
相关文章
Civitai tăng cường các quy định của Deepfake trong bối cảnh áp lực từ Thẻ Mastercard và Visa
Civitai, một trong những kho lưu trữ mô hình AI nổi bật nhất trên Internet, gần đây đã thực hiện những thay đổi đáng kể đối với các chính sách của mình về nội dung NSFW, đặc biệt liên quan đến người nổi tiếng Loras. Những thay đổi này đã được thúc đẩy bởi áp lực từ MasterCard và Visa của người hỗ trợ thanh toán. Người nổi tiếng Loras, đó là bạn
Google sử dụng AI để đình chỉ hơn 39 triệu tài khoản AD vì bị nghi ngờ gian lận
Google đã công bố vào thứ Tư rằng họ đã có một bước quan trọng trong việc chống gian lận quảng cáo bằng cách đình chỉ một tài khoản nhà quảng cáo đáng kinh ngạc 39,2 triệu trên nền tảng của mình vào năm 2024.
Tạo video AI chuyển sang kiểm soát hoàn toàn
Các mô hình nền tảng video như Hunyuan và WAN 2.1 đã có những bước tiến đáng kể, nhưng chúng thường bị thiếu hụt khi nói đến điều khiển chi tiết cần thiết trong sản xuất phim và TV, đặc biệt là trong lĩnh vực hiệu ứng hình ảnh (VFX). Trong VFX Studios chuyên nghiệp, những mô hình này, cùng với hình ảnh trước đó
评论 (25)
0/200
KevinAnderson
2025年04月13日 16:16:26
The Nancy Pelosi video was a wake-up call! It's scary how easily AI can manipulate videos. I appreciate the app for showing how subtle changes can have big impacts. But it's also a bit unsettling; makes you question what's real. Needs more transparency, I think.
0
NicholasYoung
2025年04月13日 01:51:07
ナンシー・ペロシのビデオは目覚まし時計のようなものでした!AIがどれだけ簡単にビデオを操作できるかは恐ろしいです。このアプリが微妙な変更が大きな影響を与えることを示してくれたのは良かったです。でも、ちょっと不気味ですね。本物が何か疑問に思います。もっと透明性が必要だと思います。
0
MichaelDavis
2025年04月12日 11:12:26
O vídeo da Nancy Pelosi foi um alerta! É assustador como a IA pode manipular vídeos tão facilmente. Gosto do app por mostrar como mudanças sutis podem ter grandes impactos. Mas também é um pouco perturbador; faz você questionar o que é real. Precisa de mais transparência, acho eu.
0
JustinNelson
2025年04月14日 01:30:55
नैन्सी पेलोसी का वीडियो एक जागृति कॉल था! यह डरावना है कि AI कितनी आसानी से वीडियो को मैनिपुलेट कर सकता है। मुझे ऐप पसंद है कि यह दिखाता है कि सूक्ष्म परिवर्तन कैसे बड़े प्रभाव डाल सकते हैं। लेकिन यह भी थोड़ा असहज है; आपको यह सोचने पर मजबूर करता है कि क्या सच है। मुझे लगता है कि इसमें और पारदर्शिता की जरूरत है।
0
MarkLopez
2025年04月12日 14:16:16
La vidéo de Nancy Pelosi a été un signal d'alarme ! C'est effrayant de voir à quel point l'IA peut facilement manipuler des vidéos. J'apprécie l'application pour montrer comment des changements subtils peuvent avoir un grand impact. Mais c'est aussi un peu dérangeant ; ça vous fait douter de ce qui est réel. Il faudrait plus de transparence, je pense.
0
RogerMartinez
2025年04月13日 00:33:37
The Nancy Pelosi video was a wake-up call on how AI can subtly change videos to mislead us. It's scary how simple it was to make her look intoxicated. This app really shows the power of AI in media manipulation. Needs to be more accessible though, so more people can understand the risks!
0






2019年,当时的美国众议院议长南希·佩洛西(Nancy Pelosi)的欺骗性视频广泛流传。该视频被编辑为使她显得陶醉,这引起了人们对操纵媒体如何误导公众多么容易被误解的视频。尽管它很简单,但这一事件强调了甚至基本的视听编辑的潜在损害。
当时,DeepFake景观在很大程度上由基于自动编码器的面部替换技术主导,该技术自2017年底以来一直存在。这些早期系统努力地在Pelosi视频中看到了细微的变化,而是专注于更明显的面部交换。
2022年的“神经情感导演”框架改变了著名面孔的情绪。资料来源: https://www.youtube.com/watch?v=li6w8prdmjq
快进到今天,电影和电视行业越来越多地探索AI驱动的后期制作编辑。这种趋势引发了人们的兴趣和批评,因为AI使以前无法实现的完美主义水平。作为回应,研究社区开发了各种专注于面部捕获的“本地编辑”的项目,例如扩散视频自动编码器,及时缝合,Chatface,MagicFace和Disco。
与2025年1月Project MagicFace一起编辑。资料来源: https://arxiv.org/pdf/2501.02260
新面孔,新皱纹
但是,创建这些微妙的编辑的技术比我们检测到它们的能力要快得多。大多数DeepFake检测方法都过时,重点是旧技术和数据集。也就是说,直到印度研究人员最近的突破。
对深击中微妙的局部编辑的检测:实际视频会改变以产生带有细微变化的假货,例如眉毛凸起,改良的性别特征以及表达转向厌恶的转变(此处用单个框架说明)。资料来源: https://arxiv.org/pdf/2503.22121
这项新的研究针对检测微妙的局部面部操作,这种伪造经常被忽略。该方法没有寻找广泛的不一致或身份不匹配,而是在细节上进行零,例如轻微的表达转移或对特定面部特征的次要编辑。它利用面部动作编码系统(FACS)将面部表情分解为64个可变区域。
facs中的成分64个表达零件中有一些。资料来源: https://www.cs.cmu.edu/~face/facs.htm
研究人员针对各种最近的编辑方法测试了他们的方法,发现即使使用较旧的数据集和较新的攻击向量,它也始终优于现有解决方案。
``通过使用基于AU的功能来指导通过蒙版自动编码器(MAE)学到的视频表示形式,我们的方法有效地捕获了对于检测微妙的面部编辑至关重要的局部变化。
``这种方法使我们能够构建一个统一的潜在表示,该表示同时编码本地化的编辑和面部为中心的视频的更广泛的变化,从而为深击检测提供了全面且适应性的解决方案。''
该论文由Madras印度理工学院的研究人员撰写,标题为使用动作单位引导的视频表示的局部深层操作。
方法
该方法首先检测到视频中的面孔,并在这些面上以均匀间隔的框架进行采样。然后将这些框架分解为小的3D补丁,以捕获本地的空间和时间细节。
新方法的模式。输入视频通过面部检测处理,以提取均匀间隔的面部中心框架,然后将其分为“管状”贴片,并通过一个编码器,该编码器从两个预处理的借口任务中融合了潜在表示。然后,分类器使用结果向量来确定视频是真实的还是假的。
每个贴片都包含来自几个连续帧的像素的小窗口,从而使模型可以学习短期运动和表达变化。这些补丁被嵌入并在定位上进行编码,然后被送入旨在区分真实视频的编码器。
通过使用跨注意机制结合两种类型的学说表示,旨在创建一个更敏感且可推广的特征空间,可以解决检测微妙操作的挑战。
借口任务
第一个表示形式来自经过胶带自动编码任务的编码器。通过隐藏大多数视频的3D补丁,编码器学会了重建缺失的部分,从而捕获了重要的时空图案,例如面部运动。
借口任务培训涉及掩盖视频输入的一部分,并使用编码器折线设置来重建原始框架或每个框架操作单元地图,具体取决于任务。
但是,仅此一项就不足以检测细粒的编辑。研究人员介绍了第二个经过培训的编码器,以检测面部动作单元(AUS),鼓励其专注于经常发生微妙的深层效果编辑的局部肌肉活动。
面部动作单位(粮农组织或澳大利亚州)的进一步示例。资料来源: https://www.eiagroup.com/the-facial-action-coding-system/
预处理后,两个编码器的输出都使用交叉注意力组合在一起,基于AU的功能指导着对空间时端特征的注意力。这导致了融合的潜在表示,该表示既捕获更广泛的运动上下文和最终分类任务的局部表达细节。
数据和测试
执行
该系统是使用基于Facexzoo Pytorch的面部检测框架实现的,从每个视频剪辑中提取16个以面部为中心的帧。借口任务是在CelebV-HQ数据集上培训的,其中包括35,000个高质量的面部视频。
从源文件中,来自新项目中使用的CelebV-HQ数据集的示例。资料来源: https://arxiv.org/pdf/2207.12393
将一半的数据掩盖以防止过度拟合。对于蒙版的框架重建任务,该模型经过训练,可以使用L1损失来预测缺失区域。对于第二项任务,它经过培训,可以为16个面部动作单元生成地图,并受到L1损失的监督。
预处理后,使用FaceForensics ++数据集进行了融合并微调以进行深层检测,其中包括真实和操纵视频。
自2017年以来,FaceForensics ++数据集一直是DeepFake检测的基石,尽管现在已经过时了,就最新的面部合成技术而言。资料来源: https://www.youtube.com/watch?v=x2g48q2i2zq
为了解决阶级失衡,作者使用了焦点损失,强调了训练期间更具挑战性的例子。所有培训均使用Videoma的预训练的检查站对单个RTX 4090 GPU进行了24GB VRAM进行。
测试
该方法针对各种深层检测技术进行了评估,重点是本地编辑的深击。测试包括一系列编辑方法和较旧的DeepFake数据集,使用曲线下的面积(AUC),平均精度和平均F1分数等指标。
从本文中:对最近的本地化深击的比较表明,该提出的方法的表现优于其他所有方法,在次要方法中,AUC和平均精度的增长率为15%至20%。
作者提供了本地操纵视频的视觉比较,显示了他们方法对微妙编辑的敏感性。
使用三种不同的局部操作更改了真实视频,以产生与原始视觉相似的假货。此处显示的是代表性帧以及每种方法的平均伪造得分。尽管现有的检测器在这些微妙的编辑中苦苦挣扎,但拟议的模型始终分配了较高的假概率,表明对局部变化的敏感性更高。
研究人员指出,现有的最新检测方法在最新的深泡产生技术中苦苦挣扎,而他们的方法表现出强大的概括,获得了很高的AUC和平均精度得分。
在传统的DeepFake数据集上的性能表明,所提出的方法在领先的方法中仍然具有竞争力,表明在各种操纵类型中进行了强烈的概括。
作者还测试了该模型在现实世界中的可靠性,发现它与诸如饱和调整,高斯模糊和像素化之类的常见视频扭曲有弹性。
在不同的视频扭曲下如何变化的检测准确性如何变化。在大多数情况下,新方法仍然具有弹性,AUC只有很小的下降。当引入高斯噪声时,最显着的下降发生。
结论
尽管公众经常将深果作为身份互换,但人工智能操纵的现实更加细微,并且可能更阴险。在这项新研究中讨论的那种本地编辑可能直到发生另一项引人注目的事件后才吸引公众关注。然而,正如Actor Nic Cage所指出的那样,后期制作编辑改变表演的潜力是我们所有人都应该注意的问题。我们自然对面部表情的丝毫变化也很敏感,并且上下文可以极大地改变其影响。
首次发布于2025年4月2日,星期三



The Nancy Pelosi video was a wake-up call! It's scary how easily AI can manipulate videos. I appreciate the app for showing how subtle changes can have big impacts. But it's also a bit unsettling; makes you question what's real. Needs more transparency, I think.




ナンシー・ペロシのビデオは目覚まし時計のようなものでした!AIがどれだけ簡単にビデオを操作できるかは恐ろしいです。このアプリが微妙な変更が大きな影響を与えることを示してくれたのは良かったです。でも、ちょっと不気味ですね。本物が何か疑問に思います。もっと透明性が必要だと思います。




O vídeo da Nancy Pelosi foi um alerta! É assustador como a IA pode manipular vídeos tão facilmente. Gosto do app por mostrar como mudanças sutis podem ter grandes impactos. Mas também é um pouco perturbador; faz você questionar o que é real. Precisa de mais transparência, acho eu.




नैन्सी पेलोसी का वीडियो एक जागृति कॉल था! यह डरावना है कि AI कितनी आसानी से वीडियो को मैनिपुलेट कर सकता है। मुझे ऐप पसंद है कि यह दिखाता है कि सूक्ष्म परिवर्तन कैसे बड़े प्रभाव डाल सकते हैं। लेकिन यह भी थोड़ा असहज है; आपको यह सोचने पर मजबूर करता है कि क्या सच है। मुझे लगता है कि इसमें और पारदर्शिता की जरूरत है।




La vidéo de Nancy Pelosi a été un signal d'alarme ! C'est effrayant de voir à quel point l'IA peut facilement manipuler des vidéos. J'apprécie l'application pour montrer comment des changements subtils peuvent avoir un grand impact. Mais c'est aussi un peu dérangeant ; ça vous fait douter de ce qui est réel. Il faudrait plus de transparence, je pense.




The Nancy Pelosi video was a wake-up call on how AI can subtly change videos to mislead us. It's scary how simple it was to make her look intoxicated. This app really shows the power of AI in media manipulation. Needs to be more accessible though, so more people can understand the risks!












