option
Maison Nouvelles Dévoiler des modifications subtiles mais percutantes d'IA dans le contenu vidéo authentique

Dévoiler des modifications subtiles mais percutantes d'IA dans le contenu vidéo authentique

date de sortie date de sortie 11 avril 2025
Auteur Auteur StevenWalker
vues vues 42

En 2019, une vidéo trompeuse de Nancy Pelosi, alors présidente de la Chambre des représentants américains, a largement diffusé. La vidéo, qui a été modifiée pour la faire apparaître en état d'ébriété, a été un rappel brutal de la facilité avec laquelle les médias manipulés peuvent induire le public en erreur. Malgré sa simplicité, cet incident a mis en évidence les dommages potentiels des modifications audiovisuelles même de base.

À l'époque, le paysage DeepFake était largement dominé par les technologies de remplacement des visages Autoencoder, qui existaient depuis fin 2017. Ces premiers systèmes ont eu du mal à apporter les changements nuancés dans la vidéo de Pelosi, se concentrant plutôt sur des échanges de visage plus manifestes.

Le récent framework «Neural Emotion Director» change l'humeur d'un visage célèbre. Source: https://www.youtube.com/watch?v=li6w8prdmjq Le cadre du «directeur des émotions neurales» de 2022 change l'humeur d'un visage célèbre. Source: https://www.youtube.com/watch?v=li6w8prdmjq

Avance rapide jusqu'à aujourd'hui, et l'industrie du cinéma et de la télévision explore de plus en plus les modifications de post-production axées sur l'IA. Cette tendance a suscité l'intérêt et la critique, car l'IA permet un niveau de perfectionnisme qui était auparavant inaccessible. En réponse, la communauté de recherche a développé divers projets axés sur les «modifications locales» des captures faciales, telles que les autoencoders vidéo de diffusion, le coudre dans le temps, Chatface, Magicface et Disco.

Édition d'expression avec le projet de janvier 2025 Magicface. Source: https://arxiv.org/pdf/2501.02260 Édition d'expression avec le projet de janvier 2025 Magicface. Source: https://arxiv.org/pdf/2501.02260

Nouveaux visages, nouvelles rides

Cependant, la technologie pour créer ces modifications subtiles progresse beaucoup plus rapidement que notre capacité à les détecter. La plupart des méthodes de détection DeepFake sont obsolètes, se concentrant sur les techniques et ensembles de données plus anciens. Autrement dit, jusqu'à une récente percée des chercheurs en Inde.

Détection de modifications locales subtiles dans DeepFakes: une vraie vidéo est modifiée pour produire des contrefaçons avec des changements nuancés tels que les sourcils surélevés, des traits de genre modifiés et des changements d'expression vers un dégoût (illustré ici avec un seul cadre). Source: https://arxiv.org/pdf/2503.22121 Détection de modifications locales subtiles dans DeepFakes: une vraie vidéo est modifiée pour produire des contrefaçons avec des changements nuancés tels que les sourcils surélevés, des traits de genre modifiés et des changements d'expression vers un dégoût (illustré ici avec un seul cadre). Source: https://arxiv.org/pdf/2503.22121

Cette nouvelle recherche cible la détection de manipulations faciales subtiles et localisées, un type de contrefaçon souvent négligé. Au lieu de rechercher de grandes incohérences ou des décalages d'identité, la méthode zéros sur des détails fins comme de légers changements d'expression ou des modifications mineures vers des caractéristiques faciales spécifiques. Il exploite le système de codage d'action faciale (FACS), qui décompose les expressions faciales en 64 zones mutables.

Certaines des 64 parties d'expression constituantes dans FACS. Source: https://www.cs.cmu.edu/~face/facs.htm Certaines des 64 parties d'expression constituantes dans FACS. Source: https://www.cs.cmu.edu/~face/facs.htm

Les chercheurs ont testé leur approche contre diverses méthodes d'édition récentes et l'ont trouvé de manière cohérente surperformée les solutions existantes, même avec des ensembles de données plus anciens et des vecteurs d'attaque plus récents.

«En utilisant des fonctionnalités basées sur Au pour guider les représentations vidéo apprises via des autoencoders masqués (MAE), notre méthode capture efficacement les changements localisés cruciaux pour détecter des modifications faciales subtiles.

"Cette approche nous permet de construire une représentation latente unifiée qui code pour les modifications localisées et les modifications plus larges des vidéos centrées sur le visage, fournissant une solution complète et adaptable pour la détection DeepFake."

L'article, intitulé Détection de manipulations localisées Deepfake à l'aide de représentations vidéo guidées par unité d'action , a été rédigée par des chercheurs de l'Institut indien de technologie de Madras.

Méthode

La méthode commence par détecter les visages dans une vidéo et l'échantillonnage des cadres uniformément espacés centrés sur ces faces. Ces cadres sont ensuite décomposés en petits patchs 3D, capturant les détails spatiaux locaux et temporels.

Schéma pour la nouvelle méthode. La vidéo d'entrée est traitée avec la détection du visage pour extraire les cadres uniformément espacés et centrés sur le visage, qui sont ensuite divisés en patchs tubulaires et passés à travers un encodeur qui fusionne les représentations latentes à partir de deux tâches prétextes prétexées. Le vecteur résultant est ensuite utilisé par un classificateur pour déterminer si la vidéo est réelle ou fausse. Schéma pour la nouvelle méthode. La vidéo d'entrée est traitée avec la détection du visage pour extraire les cadres uniformément espacés centrés sur le visage, qui sont ensuite divisés en patchs «tubulaires» et passés à travers un encodeur qui fusionne les représentations latentes de deux tâches prétextes pré-étirées. Le vecteur résultant est ensuite utilisé par un classificateur pour déterminer si la vidéo est réelle ou fausse.

Chaque patch contient une petite fenêtre de pixels à partir de quelques images successives, permettant au modèle d'apprendre des changements de mouvement et d'expression à court terme. Ces correctifs sont intégrés et codés de manière positive avant d'être introduits dans un encodeur conçu pour distinguer les réelles des fausses vidéos.

Le défi de détecter des manipulations subtiles est relevé en utilisant un codeur qui combine deux types de représentations apprises grâce à un mécanisme de transtention croisée, visant à créer un espace de fonctionnalité plus sensible et généralisable.

Tâches prétextes

La première représentation provient d'un encodeur formé avec une tâche de mise en œuvre masquée. En cachant la plupart des patchs 3D de la vidéo, l'encodeur apprend à reconstruire les parties manquantes, capturant des modèles spatio-temporels importants comme le mouvement facial.

La formation à la tâche Pretext consiste à masquer les parties de l'entrée vidéo et à utiliser une configuration de coder-décodeur pour reconstruire les cadres d'origine ou les cartes d'unité d'action par trame, selon la tâche. La formation à la tâche Pretext consiste à masquer les parties de l'entrée vidéo et à utiliser une configuration de coder-décodeur pour reconstruire les cadres d'origine ou les cartes d'unité d'action par trame, selon la tâche.

Cependant, cela ne suffit pas à lui seul pour détecter les modifications à grain fin. Les chercheurs ont introduit un deuxième encodeur formé pour détecter les unités d'action faciale (AUS), l'encourageant à se concentrer sur l'activité musculaire localisée où des modifications subtiles defake Deepfake se produisent souvent.

D'autres exemples d'unités d'action faciale (FAUS ou AUS). Source: https://www.eiagroup.com/the-facial-action-coding-system/ D'autres exemples d'unités d'action faciale (FAUS ou AUS). Source: https://www.eiagroup.com/the-facial-action-coding-system/

Après pré-formation, les sorties des deux encodeurs sont combinées à l'aide de l'attention croisée, avec les caractéristiques basées sur l'UA guidant l'attention sur les caractéristiques spatiales-temporelles. Il en résulte une représentation latente fusionnée qui capture à la fois un contexte de mouvement plus large et des détails d'expression localisés, utilisés pour la tâche de classification finale.

Données et tests

Mise en œuvre

Le système a été implémenté à l'aide du cadre de détection de visage basé sur FACEXZOO PYTORCH, en extraction de 16 trames centrées sur le visage de chaque clip vidéo. Les tâches prétextes ont été formées sur l'ensemble de données CELEBV-HQ, qui comprend 35 000 vidéos faciales de haute qualité.

À partir du document source, des exemples de l'ensemble de données CELEBV-HQ utilisé dans le nouveau projet. Source: https://arxiv.org/pdf/2207.12393 À partir du document source, des exemples de l'ensemble de données CELEBV-HQ utilisé dans le nouveau projet. Source: https://arxiv.org/pdf/2207.12393

La moitié des données ont été masquées pour empêcher le sur-ajustement. Pour la tâche de reconstruction du cadre masqué, le modèle a été formé pour prédire les régions manquantes en utilisant la perte de L1. Pour la deuxième tâche, il a été formé pour générer des cartes pour 16 unités d'action faciale, supervisées par L1 Loss.

Après pré-formation, les encodeurs ont été fusionnés et affinés pour la détection DeepFake à l'aide de l'ensemble de données Faceforerensics ++, qui comprend des vidéos réelles et manipulées.

L'ensemble de données FACEFORENSICS ++ est la pierre de touche centrale de la détection Deepfake depuis 2017, bien qu'elle soit désormais considérablement obsolète, en ce qui concerne les dernières techniques de synthèse faciale. Source: https://www.youtube.com/watch?v=x2g48q2i2zq L'ensemble de données FACEFORENSICS ++ est la pierre angulaire de la détection DeepFake depuis 2017, bien qu'elle soit désormais considérablement obsolète, en ce qui concerne les dernières techniques de synthèse faciale. Source: https://www.youtube.com/watch?v=x2g48q2i2zq

Pour aborder le déséquilibre des classes, les auteurs ont utilisé une perte focale, mettant l'accent sur des exemples plus difficiles pendant la formation. Toute la formation a été menée sur un seul GPU RTX 4090 avec 24 Go de VRAM, en utilisant des points de contrôle pré-formés de Videomae.

Tests

La méthode a été évaluée par rapport à diverses techniques de détection defake Deep, se concentrant sur les fasks profonds édits localement. Les tests comprenaient une gamme de méthodes d'édition et de jeux de données DeepFake plus anciens, en utilisant des mesures comme une zone sous Curve (AUC), une précision moyenne et un score F1 moyen.

De l'article: la comparaison sur les FFEFAKES LOCALISÉS récents montre que la méthode proposée a surpassé tous les autres, avec un gain de 15 à 20% en ASC et une précision moyenne par rapport à la meilleure approche suivante. De l'article: la comparaison sur les FFEFAKES LOCALISÉS récents montre que la méthode proposée a surpassé tous les autres, avec un gain de 15 à 20% en ASC et une précision moyenne par rapport à la meilleure approche suivante.

Les auteurs ont fourni des comparaisons visuelles de vidéos manipulées localement, montrant la sensibilité supérieure de leur méthode aux modifications subtiles.

Une vraie vidéo a été modifiée en utilisant trois manipulations localisées différentes pour produire des contrefaçons qui sont restés visuellement similaires à l'original. Les cadres représentatifs sont montrés ici avec les faux scores de détection moyens pour chaque méthode. Alors que les détecteurs existants ont lutté avec ces modifications subtiles, le modèle proposé a systématiquement attribué de fausses probabilités élevées, indiquant une plus grande sensibilité aux changements localisés. Une vraie vidéo a été modifiée en utilisant trois manipulations localisées différentes pour produire des contrefaçons qui sont restés visuellement similaires à l'original. Les cadres représentatifs sont montrés ici avec les faux scores de détection moyens pour chaque méthode. Alors que les détecteurs existants ont lutté avec ces modifications subtiles, le modèle proposé a systématiquement attribué de fausses probabilités élevées, indiquant une plus grande sensibilité aux changements localisés.

Les chercheurs ont noté que les méthodes de détection de pointe existantes avaient eu du mal avec les dernières techniques de génération defake profonde, tandis que leur méthode a montré une généralisation robuste, atteignant des scores de précision AUC élevés et de précision moyens.

Les performances sur les ensembles de données traditionnelles DeepFake montrent que la méthode proposée est restée compétitive avec les principales approches, indiquant une forte généralisation à travers une gamme de types de manipulation. Les performances sur les ensembles de données traditionnelles DeepFake montrent que la méthode proposée est restée compétitive avec les principales approches, indiquant une forte généralisation à travers une gamme de types de manipulation.

Les auteurs ont également testé la fiabilité du modèle dans des conditions du monde réel, le trouvant résilient aux distorsions vidéo courantes comme les ajustements de saturation, le flou gaussien et la pixélation.

Une illustration de la façon dont la précision de détection change sous différentes distorsions vidéo. La nouvelle méthode est restée résiliente dans la plupart des cas, avec seulement une petite baisse de l'ASC. La baisse la plus significative s'est produite lorsque le bruit gaussien a été introduit. Une illustration de la façon dont la précision de détection change sous différentes distorsions vidéo. La nouvelle méthode est restée résiliente dans la plupart des cas, avec seulement une petite baisse de l'ASC. La baisse la plus significative s'est produite lorsque le bruit gaussien a été introduit.

Conclusion

Alors que le public considère souvent les fesses profondes comme des échanges d'identité, la réalité de la manipulation de l'IA est plus nuancée et potentiellement plus insidieuse. Le type d'édition local discuté dans cette nouvelle recherche pourrait ne pas attirer l'attention du public jusqu'à ce qu'un autre incident de haut niveau se produise. Pourtant, comme l'a souligné l'acteur Nic Cage, le potentiel de modifications de post-production pour modifier les performances est une préoccupation dont nous devons tous être conscients. Nous sommes naturellement sensibles aux moindres changements dans les expressions faciales, et le contexte peut modifier considérablement leur impact.

Publié le mercredi 2 avril 2025 pour la première fois

Article connexe
Civitai tăng cường các quy định của Deepfake trong bối cảnh áp lực từ Thẻ Mastercard và Visa Civitai tăng cường các quy định của Deepfake trong bối cảnh áp lực từ Thẻ Mastercard và Visa Civitai, một trong những kho lưu trữ mô hình AI nổi bật nhất trên Internet, gần đây đã thực hiện những thay đổi đáng kể đối với các chính sách của mình về nội dung NSFW, đặc biệt liên quan đến người nổi tiếng Loras. Những thay đổi này đã được thúc đẩy bởi áp lực từ MasterCard và Visa của người hỗ trợ thanh toán. Người nổi tiếng Loras, đó là bạn
Google sử dụng AI để đình chỉ hơn 39 triệu tài khoản AD vì bị nghi ngờ gian lận Google sử dụng AI để đình chỉ hơn 39 triệu tài khoản AD vì bị nghi ngờ gian lận Google đã công bố vào thứ Tư rằng họ đã có một bước quan trọng trong việc chống gian lận quảng cáo bằng cách đình chỉ một tài khoản nhà quảng cáo đáng kinh ngạc 39,2 triệu trên nền tảng của mình vào năm 2024.
Tạo video AI chuyển sang kiểm soát hoàn toàn Tạo video AI chuyển sang kiểm soát hoàn toàn Các mô hình nền tảng video như Hunyuan và WAN 2.1 đã có những bước tiến đáng kể, nhưng chúng thường bị thiếu hụt khi nói đến điều khiển chi tiết cần thiết trong sản xuất phim và TV, đặc biệt là trong lĩnh vực hiệu ứng hình ảnh (VFX). Trong VFX Studios chuyên nghiệp, những mô hình này, cùng với hình ảnh trước đó
commentaires (25)
0/200
KevinAnderson
KevinAnderson 13 avril 2025 16:16:26 UTC

The Nancy Pelosi video was a wake-up call! It's scary how easily AI can manipulate videos. I appreciate the app for showing how subtle changes can have big impacts. But it's also a bit unsettling; makes you question what's real. Needs more transparency, I think.

NicholasYoung
NicholasYoung 13 avril 2025 01:51:07 UTC

ナンシー・ペロシのビデオは目覚まし時計のようなものでした!AIがどれだけ簡単にビデオを操作できるかは恐ろしいです。このアプリが微妙な変更が大きな影響を与えることを示してくれたのは良かったです。でも、ちょっと不気味ですね。本物が何か疑問に思います。もっと透明性が必要だと思います。

MichaelDavis
MichaelDavis 12 avril 2025 11:12:26 UTC

O vídeo da Nancy Pelosi foi um alerta! É assustador como a IA pode manipular vídeos tão facilmente. Gosto do app por mostrar como mudanças sutis podem ter grandes impactos. Mas também é um pouco perturbador; faz você questionar o que é real. Precisa de mais transparência, acho eu.

JustinNelson
JustinNelson 14 avril 2025 01:30:55 UTC

नैन्सी पेलोसी का वीडियो एक जागृति कॉल था! यह डरावना है कि AI कितनी आसानी से वीडियो को मैनिपुलेट कर सकता है। मुझे ऐप पसंद है कि यह दिखाता है कि सूक्ष्म परिवर्तन कैसे बड़े प्रभाव डाल सकते हैं। लेकिन यह भी थोड़ा असहज है; आपको यह सोचने पर मजबूर करता है कि क्या सच है। मुझे लगता है कि इसमें और पारदर्शिता की जरूरत है।

MarkLopez
MarkLopez 12 avril 2025 14:16:16 UTC

La vidéo de Nancy Pelosi a été un signal d'alarme ! C'est effrayant de voir à quel point l'IA peut facilement manipuler des vidéos. J'apprécie l'application pour montrer comment des changements subtils peuvent avoir un grand impact. Mais c'est aussi un peu dérangeant ; ça vous fait douter de ce qui est réel. Il faudrait plus de transparence, je pense.

RogerMartinez
RogerMartinez 13 avril 2025 00:33:37 UTC

The Nancy Pelosi video was a wake-up call on how AI can subtly change videos to mislead us. It's scary how simple it was to make her look intoxicated. This app really shows the power of AI in media manipulation. Needs to be more accessible though, so more people can understand the risks!

Retour en haut
OR