Option
Heim Nachricht Enthüllen Sie subtile, aber wirkungsvolle KI -Modifikationen in authentischen Videoinhalten

Enthüllen Sie subtile, aber wirkungsvolle KI -Modifikationen in authentischen Videoinhalten

Veröffentlichungsdatum Veröffentlichungsdatum 11. April 2025
Autor Autor StevenWalker
Ansichten Ansichten 42

Im Jahr 2019 zirkulierte ein irreführendes Video von Nancy Pelosi, damals Sprecher des US -Repräsentantenhauses, weit verbreitet. Das Video, das bearbeitet wurde, um sie betrunken erscheinen zu lassen, war eine starke Erinnerung daran, wie leicht manipulierte Medien die Öffentlichkeit irreführen können. Trotz seiner Einfachheit zeigte dieser Vorfall den potenziellen Schaden selbst grundlegender audiovisueller Änderungen.

Zu dieser Zeit wurde die DeepFake-Landschaft weitgehend von Autoencoder-basierten Face-Replacement-Technologien dominiert, die es seit Ende 2017 gab. Diese frühen Systeme hatten Schwierigkeiten, die nuancierten Veränderungen im Pelosi-Video vorzunehmen und sich stattdessen auf offenere Gesichtswechsel zu konzentrieren.

Der jüngste Rahmen für Der Rahmen von 2022 "Neural Emotion Director" verändert die Stimmung eines berühmten Gesichts. Quelle: https://www.youtube.com/watch?v=li6w8prdmjq

Schneller Vorlauf bis heute, und die Film- und TV-Branche erforscht zunehmend KI-gesteuerte Postproduktions-Änderungen. Dieser Trend hat sowohl Interesse als auch Kritik ausgelöst, da AI einen bisher unerreichbaren Perfektionismus ermöglicht. Als Reaktion darauf hat die Forschungsgemeinschaft verschiedene Projekte entwickelt, die sich auf „lokale Änderungen“ von Gesichtsaufkommen konzentrieren, wie z.

Expressionsbearbeitung mit dem Januar 2025 Project Magicface. Quelle: https://arxiv.org/pdf/2501.02260 Expressionsbearbeitung mit dem Januar 2025 Project Magicface. Quelle: https://arxiv.org/pdf/2501.02260

Neue Gesichter, neue Falten

Die Technologie zur Erstellung dieser subtilen Änderungen ist jedoch viel schneller als unsere Fähigkeit, sie zu erkennen. Die meisten DeepFake -Erkennungsmethoden sind veraltet und konzentrieren sich auf ältere Techniken und Datensätze. Das heißt, bis zu einem jüngsten Durchbruch von Forschern in Indien.

Nachweis von subtilen lokalen Änderungen in DeepFakes: Ein echtes Video wird verändert, um Fälschungen mit nuancierten Veränderungen wie erhöhten Augenbrauen, modifizierten Geschlechtermerkmalen und Verschiebungen des Ausdrucks in Richtung Ekel (hier mit einem einzelnen Rahmen dargestellt) zu erzeugen. Quelle: https://arxiv.org/pdf/2503.22121 Nachweis von subtilen lokalen Änderungen in DeepFakes: Ein echtes Video wird verändert, um Fälschungen mit nuancierten Veränderungen wie erhöhten Augenbrauen, modifizierten Geschlechtermerkmalen und Verschiebungen des Ausdrucks in Richtung Ekel (hier mit einem einzelnen Rahmen dargestellt) zu erzeugen. Quelle: https://arxiv.org/pdf/2503.22121

Diese neue Forschung zielt auf die Erkennung subtiler, lokalisierter Gesichtsmanipulationen ab, eine Art Fälschung, die oft übersehen wird. Anstatt nach breiten Inkonsistenzen oder Identitätsfehlanpassungen zu suchen, werden die Methoden auf feinen Details wie geringfügigem Ausdruck oder geringfügigen Änderungen zu bestimmten Gesichtsmerkmalen unterzogen. Es nutzt das Facial Action Coding System (FACS), das die Gesichtsausdrücke in 64 veränderliche Bereiche unterteilt.

Einige der Bestandteile von 64 Ausdruckteilen in FACS. Quelle: https://www.cs.cmu.edu/~face/facs.htm Einige der Bestandteile von 64 Ausdruckteilen in FACS. Quelle: https://www.cs.cmu.edu/~face/facs.htm

Die Forscher testeten ihren Ansatz gegen verschiedene aktuelle Bearbeitungsmethoden und stellten fest, dass sie vorhandene Lösungen durchweg übertroffen hat, selbst bei älteren Datensätzen und neueren Angriffsvektoren.

Durch die Verwendung von AU-basierten Funktionen, um Videodarstellungen zu leiten, die durch maskierte Autocoders (MAE) gelernt werden, erfasst unsere Methode effektiv lokalisierte Änderungen, die für die Erkennung von subtilen Gesichtsbearbeitungen entscheidend sind.

"Dieser Ansatz ermöglicht es uns, eine einheitliche latente Darstellung zu erstellen, die sowohl lokalisierte Änderungen als auch breitere Veränderungen in Gesichts-zentrierten Videos codiert und eine umfassende und anpassbare Lösung für die DeepFake-Erkennung bietet."

Das Papier mit dem Titel "Detecting lokalisierte DeepFake-Manipulationen unter Verwendung von Aktionseinheit" -Geviting Video Repräsentationen wurde von Forschern am Indian Institute of Technology in Madras verfasst.

Verfahren

Die Methode beginnt damit, Gesichter in einem Video zu erkennen und gleichmäßig verteilte Frames auf diesen Gesichtern zu probieren. Diese Rahmen werden dann in kleine 3D -Flecken unterteilt, wodurch lokale räumliche und zeitliche Details erfasst werden.

Schema für die neue Methode. Das Eingangsvideo wird mit der Gesichtserkennung verarbeitet, um gleichmäßig verteilte, faderzentrierte Rahmen zu extrahieren, die dann in tubuläre Flecken unterteilt und durch einen Encoder geführt werden, der latente Darstellungen aus zwei vorbereiteten Vorwandsaufgaben verschmilzt. Der resultierende Vektor wird dann von einem Klassifikator verwendet, um festzustellen, ob das Video real oder falsch ist. Schema für die neue Methode. Das Eingangsvideo wird mit Gesichtserkennung verarbeitet, um gleichmäßig verteilte, faderzentrierte Frames zu extrahieren, die dann in "tubuläre" Flecken unterteilt und durch einen Encoder geführt werden, der latente Darstellungen von zwei vorab vorbereiteten Pretxt-Aufgaben verschmilzt. Der resultierende Vektor wird dann von einem Klassifikator verwendet, um festzustellen, ob das Video real oder falsch ist.

Jedes Patch enthält ein kleines Fenster von Pixeln aus einigen aufeinanderfolgenden Frames, sodass das Modell kurzfristige Bewegung und Expressionsänderungen lernen kann. Diese Patches sind eingebettet und positionell codiert, bevor sie in einen Encoder eingespeist werden, der real von gefälschten Videos unterscheidet.

Die Herausforderung, subtile Manipulationen zu erkennen, wird durch die Verwendung eines Encoders angesprochen, der zwei Arten von gelernten Darstellungen durch einen Kreuzbewegungsmechanismus kombiniert, der darauf abzielt, einen empfindlicheren und verallgemeinerbaren Merkmalsraum zu schaffen.

Vorwand Aufgaben

Die erste Darstellung stammt von einem Encoder, der mit einer maskierten Autoencodierungsaufgabe trainiert wurde. Durch das Verstecken der meisten 3D -Patches des Videos lernt der Encoder, die fehlenden Teile zu rekonstruieren und wichtige räumlich -zeitliche Muster wie Gesichtsbewegung zu erfassen.

Das Training für das Task-Training von Pretext umfasst die Maskierung von Teilen der Videoeingabe und die Verwendung eines Encoder-Decoder-Setups, um je nach Aufgabe entweder die ursprünglichen Frames oder die Aktionseinheitskarten pro Frame-Aktion zu rekonstruieren. Das Training für das Task-Training von Pretext umfasst die Maskierung von Teilen der Videoeingabe und die Verwendung eines Encoder-Decoder-Setups, um je nach Aufgabe entweder die ursprünglichen Frames oder die Aktionseinheitskarten pro Frame-Aktion zu rekonstruieren.

Dies allein reicht jedoch nicht aus, um feinkörnige Änderungen zu erkennen. Die Forscher führten einen zweiten Encoder ein, der zum Erkennen von Gesichtsbewegungseinheiten (AUS) ausgebildet wurde, um sich auf lokalisierte Muskelaktivitäten zu konzentrieren, bei denen häufig subtile DeepFake -Änderungen auftreten.

Weitere Beispiele für Gesichtsaktionseinheiten (FAUS oder AUS). Quelle: https://www.eigroup.com/the-facial-action-coding-System/ Weitere Beispiele für Gesichtsaktionseinheiten (FAUS oder AUS). Quelle: https://www.eigroup.com/the-facial-action-coding-System/

Nach der Vorabbildung werden die Ausgänge beider Encoder unter Verwendung von Kreuzbewegungen kombiniert, wobei die auf AU-basierten Merkmale die Aufmerksamkeit über die räumlich-zeitlichen Merkmale lenken. Dies führt zu einer verschmolzenen latenten Darstellung, die sowohl einen breiteren Bewegungskontext als auch lokalisierte Expressionsdetails erfasst, die für die endgültige Klassifizierungsaufgabe verwendet werden.

Daten und Tests

Durchführung

Das System wurde unter Verwendung des FaceXzoo Pytorch-basierten Gesichtserkennungsrahmens implementiert und extrahierte 16 Gesichts-zentrierte Frames aus jedem Videoclip. Die Vorwandsaufgaben wurden auf dem Celebv-HQ-Datensatz geschult, der 35.000 qualitativ hochwertige Gesichtsvideos umfasst.

Aus dem Quellpapier Beispiele aus dem im neuen Projekt verwendeten Celebv-HQ-Datensatz. Quelle: https://arxiv.org/pdf/2207.12393 Aus dem Quellpapier Beispiele aus dem im neuen Projekt verwendeten Celebv-HQ-Datensatz. Quelle: https://arxiv.org/pdf/2207.12393

Die Hälfte der Daten wurde maskiert, um eine Überanpassung zu verhindern. Für die maskierte Rahmenrekonstruktionsaufgabe wurde das Modell geschult, um fehlende Regionen mit L1 -Verlust vorherzusagen. Für die zweite Aufgabe wurde es geschult, Karten für 16 Gesichtsbewegungseinheiten zu generieren, die durch L1 -Verlust überwacht wurden.

Nach der Vorbereitung wurden die Encoder unter Verwendung des Datensatzes mit FaceForensics ++ als DeepFake-Erkennung fusioniert und für die DeepFake-Erkennung feinstabiert, die sowohl reale als auch manipulierte Videos enthält.

Der FaceForensics ++ - Datensatz ist seit 2017 der zentrale Prüfstein für die DeepFake -Erkennung, obwohl er in Bezug auf die neuesten Techniken der Gesichtssynthese nun erheblich veraltet ist. Quelle: https://www.youtube.com/watch?v=x2g48q2i2zq Der Datensatz mit FaceForensics ++ ist seit 2017 der Eckpfeiler der DeepFake -Erkennung, obwohl er in Bezug auf die neuesten Techniken der Gesichtssynthese nun erheblich veraltet ist. Quelle: https://www.youtube.com/watch?v=x2g48q2i2zq

Um das Ungleichgewicht des Unterrichts anzugehen, verwendeten die Autoren einen Schwerpunktverlust und betonten während des Trainings herausfordernde Beispiele. Das gesamte Training wurde an einer einzigen RTX 4090-GPU mit 24 GB VRAM unter Verwendung vorgeburerer Checkpoints von Videomae durchgeführt.

Tests

Die Methode wurde anhand verschiedener DeepFake-Detektionstechniken bewertet, wobei sich auf lokal bearbeitete Deepfakes konzentrierte. Die Tests umfassten eine Reihe von Bearbeitungsmethoden und ältere DeepFake -Datensätze, wobei Metriken wie Fläche unter Kurve (AUC), durchschnittliche Präzision und mittlere F1 -Score verwendet wurden.

Aus dem Papier: Der Vergleich der jüngsten lokalisierten DeepFakes zeigt, dass die vorgeschlagene Methode alle anderen übertrifft, wobei sowohl AUC als auch eine durchschnittliche Präzision über den nächsten Besten am besten um 15 bis 20 Prozent gesteigert wurden. Aus dem Papier: Der Vergleich der jüngsten lokalisierten DeepFakes zeigt, dass die vorgeschlagene Methode alle anderen übertrifft, wobei sowohl AUC als auch eine durchschnittliche Präzision über den nächsten Besten am besten um 15 bis 20 Prozent gesteigert wurden.

Die Autoren stellten visuelle Vergleiche lokal manipulierter Videos zur Verfügung und zeigten die überlegene Empfindlichkeit ihrer Methode gegenüber subtilen Änderungen.

Ein echtes Video wurde mit drei verschiedenen lokalisierten Manipulationen verändert, um Fälschungen zu erzeugen, die dem Original visuell ähnlich blieben. Hier sind repräsentative Frames zusammen mit den durchschnittlichen gefälschten Erkennungswerten für jede Methode. Während vorhandene Detektoren mit diesen subtilen Änderungen zu kämpfen hatten, ordnete das vorgeschlagene Modell konsistent hohe gefälschte Wahrscheinlichkeiten zu, was eine höhere Empfindlichkeit gegenüber lokalisierten Änderungen anzeigt. Ein echtes Video wurde mit drei verschiedenen lokalisierten Manipulationen verändert, um Fälschungen zu erzeugen, die dem Original visuell ähnlich blieben. Hier sind repräsentative Frames zusammen mit den durchschnittlichen gefälschten Erkennungswerten für jede Methode. Während vorhandene Detektoren mit diesen subtilen Änderungen zu kämpfen hatten, ordnete das vorgeschlagene Modell konsistent hohe gefälschte Wahrscheinlichkeiten zu, was eine höhere Empfindlichkeit gegenüber lokalisierten Änderungen anzeigt.

Die Forscher stellten fest, dass bestehende Erkennungsmethoden auf dem neuesten Stand der Technik mit den neuesten Techniken zur Deepfake-Generation zu kämpfen hatten, während ihre Methode eine robuste Verallgemeinerung zeigte, die hohe AUC- und durchschnittliche Präzisionswerte erzielte.

Die Leistung in herkömmlichen DeepFake -Datensätzen zeigt, dass die vorgeschlagene Methode mit führenden Ansätzen konkurrenzfähig blieb, was auf eine starke Verallgemeinerung über eine Reihe von Manipulationstypen hinweist. Die Leistung in herkömmlichen DeepFake -Datensätzen zeigt, dass die vorgeschlagene Methode mit führenden Ansätzen konkurrenzfähig blieb, was auf eine starke Verallgemeinerung über eine Reihe von Manipulationstypen hinweist.

Die Autoren testeten auch die Zuverlässigkeit des Modells unter realen Bedingungen und stellten fest, dass sie gegen häufige Videoverzerrungen wie Sättigungsanpassungen, Gaußsche Unschärfe und Pixelierung widerstandsfähig war.

Eine Abbildung, wie sich die Erkennungsgenauigkeit unter verschiedenen Videoverzerrungen ändert. Die neue Methode blieb in den meisten Fällen widerstandsfähig, wobei nur ein kleiner Rückgang der AUC. Der bedeutendste Abfall trat bei der Einführung von Gaußschen Rauschen auf. Eine Abbildung, wie sich die Erkennungsgenauigkeit unter verschiedenen Videoverzerrungen ändert. Die neue Methode blieb in den meisten Fällen widerstandsfähig, wobei nur ein kleiner Rückgang der AUC. Der bedeutendste Abfall trat bei der Einführung von Gaußschen Rauschen auf.

Abschluss

Während die Öffentlichkeit oft an Deepfakes als Identitätswechsel betrachtet wird, ist die Realität der AI -Manipulation nuancierter und potenziell heimtückischer. Die Art der lokalen Bearbeitung, die in dieser neuen Forschung diskutiert wird, kann die öffentliche Aufmerksamkeit möglicherweise erst aufnehmen, wenn ein weiterer hochkarätiger Vorfall auftritt. Wie der Schauspieler Nic Cage betont hat, ist das Potenzial für Postproduktionspotentationen zur Änderung von Leistungen jedoch ein Problem, von dem wir uns alle bewusst sein sollten. Wir sind natürlich auch für die geringsten Veränderungen der Gesichtsausdrücke empfindlich, und der Kontext kann ihre Auswirkungen dramatisch verändern.

Erst veröffentlicht am Mittwoch, 2. April 2025

Verwandter Artikel
Civitai tăng cường các quy định của Deepfake trong bối cảnh áp lực từ Thẻ Mastercard và Visa Civitai tăng cường các quy định của Deepfake trong bối cảnh áp lực từ Thẻ Mastercard và Visa Civitai, một trong những kho lưu trữ mô hình AI nổi bật nhất trên Internet, gần đây đã thực hiện những thay đổi đáng kể đối với các chính sách của mình về nội dung NSFW, đặc biệt liên quan đến người nổi tiếng Loras. Những thay đổi này đã được thúc đẩy bởi áp lực từ MasterCard và Visa của người hỗ trợ thanh toán. Người nổi tiếng Loras, đó là bạn
Google sử dụng AI để đình chỉ hơn 39 triệu tài khoản AD vì bị nghi ngờ gian lận Google sử dụng AI để đình chỉ hơn 39 triệu tài khoản AD vì bị nghi ngờ gian lận Google đã công bố vào thứ Tư rằng họ đã có một bước quan trọng trong việc chống gian lận quảng cáo bằng cách đình chỉ một tài khoản nhà quảng cáo đáng kinh ngạc 39,2 triệu trên nền tảng của mình vào năm 2024.
Tạo video AI chuyển sang kiểm soát hoàn toàn Tạo video AI chuyển sang kiểm soát hoàn toàn Các mô hình nền tảng video như Hunyuan và WAN 2.1 đã có những bước tiến đáng kể, nhưng chúng thường bị thiếu hụt khi nói đến điều khiển chi tiết cần thiết trong sản xuất phim và TV, đặc biệt là trong lĩnh vực hiệu ứng hình ảnh (VFX). Trong VFX Studios chuyên nghiệp, những mô hình này, cùng với hình ảnh trước đó
Kommentare (25)
0/200
KevinAnderson
KevinAnderson 13. April 2025 16:16:26 GMT

The Nancy Pelosi video was a wake-up call! It's scary how easily AI can manipulate videos. I appreciate the app for showing how subtle changes can have big impacts. But it's also a bit unsettling; makes you question what's real. Needs more transparency, I think.

NicholasYoung
NicholasYoung 13. April 2025 01:51:07 GMT

ナンシー・ペロシのビデオは目覚まし時計のようなものでした!AIがどれだけ簡単にビデオを操作できるかは恐ろしいです。このアプリが微妙な変更が大きな影響を与えることを示してくれたのは良かったです。でも、ちょっと不気味ですね。本物が何か疑問に思います。もっと透明性が必要だと思います。

MichaelDavis
MichaelDavis 12. April 2025 11:12:26 GMT

O vídeo da Nancy Pelosi foi um alerta! É assustador como a IA pode manipular vídeos tão facilmente. Gosto do app por mostrar como mudanças sutis podem ter grandes impactos. Mas também é um pouco perturbador; faz você questionar o que é real. Precisa de mais transparência, acho eu.

JustinNelson
JustinNelson 14. April 2025 01:30:55 GMT

नैन्सी पेलोसी का वीडियो एक जागृति कॉल था! यह डरावना है कि AI कितनी आसानी से वीडियो को मैनिपुलेट कर सकता है। मुझे ऐप पसंद है कि यह दिखाता है कि सूक्ष्म परिवर्तन कैसे बड़े प्रभाव डाल सकते हैं। लेकिन यह भी थोड़ा असहज है; आपको यह सोचने पर मजबूर करता है कि क्या सच है। मुझे लगता है कि इसमें और पारदर्शिता की जरूरत है।

MarkLopez
MarkLopez 12. April 2025 14:16:16 GMT

La vidéo de Nancy Pelosi a été un signal d'alarme ! C'est effrayant de voir à quel point l'IA peut facilement manipuler des vidéos. J'apprécie l'application pour montrer comment des changements subtils peuvent avoir un grand impact. Mais c'est aussi un peu dérangeant ; ça vous fait douter de ce qui est réel. Il faudrait plus de transparence, je pense.

RogerMartinez
RogerMartinez 13. April 2025 00:33:37 GMT

The Nancy Pelosi video was a wake-up call on how AI can subtly change videos to mislead us. It's scary how simple it was to make her look intoxicated. This app really shows the power of AI in media manipulation. Needs to be more accessible though, so more people can understand the risks!

Zurück nach oben
OR