

Enthüllen Sie subtile, aber wirkungsvolle KI -Modifikationen in authentischen Videoinhalten
11. April 2025
StevenWalker
42
Im Jahr 2019 zirkulierte ein irreführendes Video von Nancy Pelosi, damals Sprecher des US -Repräsentantenhauses, weit verbreitet. Das Video, das bearbeitet wurde, um sie betrunken erscheinen zu lassen, war eine starke Erinnerung daran, wie leicht manipulierte Medien die Öffentlichkeit irreführen können. Trotz seiner Einfachheit zeigte dieser Vorfall den potenziellen Schaden selbst grundlegender audiovisueller Änderungen.
Zu dieser Zeit wurde die DeepFake-Landschaft weitgehend von Autoencoder-basierten Face-Replacement-Technologien dominiert, die es seit Ende 2017 gab. Diese frühen Systeme hatten Schwierigkeiten, die nuancierten Veränderungen im Pelosi-Video vorzunehmen und sich stattdessen auf offenere Gesichtswechsel zu konzentrieren.
Der Rahmen von 2022 "Neural Emotion Director" verändert die Stimmung eines berühmten Gesichts. Quelle: https://www.youtube.com/watch?v=li6w8prdmjq
Schneller Vorlauf bis heute, und die Film- und TV-Branche erforscht zunehmend KI-gesteuerte Postproduktions-Änderungen. Dieser Trend hat sowohl Interesse als auch Kritik ausgelöst, da AI einen bisher unerreichbaren Perfektionismus ermöglicht. Als Reaktion darauf hat die Forschungsgemeinschaft verschiedene Projekte entwickelt, die sich auf „lokale Änderungen“ von Gesichtsaufkommen konzentrieren, wie z.
Expressionsbearbeitung mit dem Januar 2025 Project Magicface. Quelle: https://arxiv.org/pdf/2501.02260
Neue Gesichter, neue Falten
Die Technologie zur Erstellung dieser subtilen Änderungen ist jedoch viel schneller als unsere Fähigkeit, sie zu erkennen. Die meisten DeepFake -Erkennungsmethoden sind veraltet und konzentrieren sich auf ältere Techniken und Datensätze. Das heißt, bis zu einem jüngsten Durchbruch von Forschern in Indien.
Nachweis von subtilen lokalen Änderungen in DeepFakes: Ein echtes Video wird verändert, um Fälschungen mit nuancierten Veränderungen wie erhöhten Augenbrauen, modifizierten Geschlechtermerkmalen und Verschiebungen des Ausdrucks in Richtung Ekel (hier mit einem einzelnen Rahmen dargestellt) zu erzeugen. Quelle: https://arxiv.org/pdf/2503.22121
Diese neue Forschung zielt auf die Erkennung subtiler, lokalisierter Gesichtsmanipulationen ab, eine Art Fälschung, die oft übersehen wird. Anstatt nach breiten Inkonsistenzen oder Identitätsfehlanpassungen zu suchen, werden die Methoden auf feinen Details wie geringfügigem Ausdruck oder geringfügigen Änderungen zu bestimmten Gesichtsmerkmalen unterzogen. Es nutzt das Facial Action Coding System (FACS), das die Gesichtsausdrücke in 64 veränderliche Bereiche unterteilt.
Einige der Bestandteile von 64 Ausdruckteilen in FACS. Quelle: https://www.cs.cmu.edu/~face/facs.htm
Die Forscher testeten ihren Ansatz gegen verschiedene aktuelle Bearbeitungsmethoden und stellten fest, dass sie vorhandene Lösungen durchweg übertroffen hat, selbst bei älteren Datensätzen und neueren Angriffsvektoren.
Durch die Verwendung von AU-basierten Funktionen, um Videodarstellungen zu leiten, die durch maskierte Autocoders (MAE) gelernt werden, erfasst unsere Methode effektiv lokalisierte Änderungen, die für die Erkennung von subtilen Gesichtsbearbeitungen entscheidend sind.
"Dieser Ansatz ermöglicht es uns, eine einheitliche latente Darstellung zu erstellen, die sowohl lokalisierte Änderungen als auch breitere Veränderungen in Gesichts-zentrierten Videos codiert und eine umfassende und anpassbare Lösung für die DeepFake-Erkennung bietet."
Das Papier mit dem Titel "Detecting lokalisierte DeepFake-Manipulationen unter Verwendung von Aktionseinheit" -Geviting Video Repräsentationen wurde von Forschern am Indian Institute of Technology in Madras verfasst.
Verfahren
Die Methode beginnt damit, Gesichter in einem Video zu erkennen und gleichmäßig verteilte Frames auf diesen Gesichtern zu probieren. Diese Rahmen werden dann in kleine 3D -Flecken unterteilt, wodurch lokale räumliche und zeitliche Details erfasst werden.
Schema für die neue Methode. Das Eingangsvideo wird mit Gesichtserkennung verarbeitet, um gleichmäßig verteilte, faderzentrierte Frames zu extrahieren, die dann in "tubuläre" Flecken unterteilt und durch einen Encoder geführt werden, der latente Darstellungen von zwei vorab vorbereiteten Pretxt-Aufgaben verschmilzt. Der resultierende Vektor wird dann von einem Klassifikator verwendet, um festzustellen, ob das Video real oder falsch ist.
Jedes Patch enthält ein kleines Fenster von Pixeln aus einigen aufeinanderfolgenden Frames, sodass das Modell kurzfristige Bewegung und Expressionsänderungen lernen kann. Diese Patches sind eingebettet und positionell codiert, bevor sie in einen Encoder eingespeist werden, der real von gefälschten Videos unterscheidet.
Die Herausforderung, subtile Manipulationen zu erkennen, wird durch die Verwendung eines Encoders angesprochen, der zwei Arten von gelernten Darstellungen durch einen Kreuzbewegungsmechanismus kombiniert, der darauf abzielt, einen empfindlicheren und verallgemeinerbaren Merkmalsraum zu schaffen.
Vorwand Aufgaben
Die erste Darstellung stammt von einem Encoder, der mit einer maskierten Autoencodierungsaufgabe trainiert wurde. Durch das Verstecken der meisten 3D -Patches des Videos lernt der Encoder, die fehlenden Teile zu rekonstruieren und wichtige räumlich -zeitliche Muster wie Gesichtsbewegung zu erfassen.
Das Training für das Task-Training von Pretext umfasst die Maskierung von Teilen der Videoeingabe und die Verwendung eines Encoder-Decoder-Setups, um je nach Aufgabe entweder die ursprünglichen Frames oder die Aktionseinheitskarten pro Frame-Aktion zu rekonstruieren.
Dies allein reicht jedoch nicht aus, um feinkörnige Änderungen zu erkennen. Die Forscher führten einen zweiten Encoder ein, der zum Erkennen von Gesichtsbewegungseinheiten (AUS) ausgebildet wurde, um sich auf lokalisierte Muskelaktivitäten zu konzentrieren, bei denen häufig subtile DeepFake -Änderungen auftreten.
Weitere Beispiele für Gesichtsaktionseinheiten (FAUS oder AUS). Quelle: https://www.eigroup.com/the-facial-action-coding-System/
Nach der Vorabbildung werden die Ausgänge beider Encoder unter Verwendung von Kreuzbewegungen kombiniert, wobei die auf AU-basierten Merkmale die Aufmerksamkeit über die räumlich-zeitlichen Merkmale lenken. Dies führt zu einer verschmolzenen latenten Darstellung, die sowohl einen breiteren Bewegungskontext als auch lokalisierte Expressionsdetails erfasst, die für die endgültige Klassifizierungsaufgabe verwendet werden.
Daten und Tests
Durchführung
Das System wurde unter Verwendung des FaceXzoo Pytorch-basierten Gesichtserkennungsrahmens implementiert und extrahierte 16 Gesichts-zentrierte Frames aus jedem Videoclip. Die Vorwandsaufgaben wurden auf dem Celebv-HQ-Datensatz geschult, der 35.000 qualitativ hochwertige Gesichtsvideos umfasst.
Aus dem Quellpapier Beispiele aus dem im neuen Projekt verwendeten Celebv-HQ-Datensatz. Quelle: https://arxiv.org/pdf/2207.12393
Die Hälfte der Daten wurde maskiert, um eine Überanpassung zu verhindern. Für die maskierte Rahmenrekonstruktionsaufgabe wurde das Modell geschult, um fehlende Regionen mit L1 -Verlust vorherzusagen. Für die zweite Aufgabe wurde es geschult, Karten für 16 Gesichtsbewegungseinheiten zu generieren, die durch L1 -Verlust überwacht wurden.
Nach der Vorbereitung wurden die Encoder unter Verwendung des Datensatzes mit FaceForensics ++ als DeepFake-Erkennung fusioniert und für die DeepFake-Erkennung feinstabiert, die sowohl reale als auch manipulierte Videos enthält.
Der Datensatz mit FaceForensics ++ ist seit 2017 der Eckpfeiler der DeepFake -Erkennung, obwohl er in Bezug auf die neuesten Techniken der Gesichtssynthese nun erheblich veraltet ist. Quelle: https://www.youtube.com/watch?v=x2g48q2i2zq
Um das Ungleichgewicht des Unterrichts anzugehen, verwendeten die Autoren einen Schwerpunktverlust und betonten während des Trainings herausfordernde Beispiele. Das gesamte Training wurde an einer einzigen RTX 4090-GPU mit 24 GB VRAM unter Verwendung vorgeburerer Checkpoints von Videomae durchgeführt.
Tests
Die Methode wurde anhand verschiedener DeepFake-Detektionstechniken bewertet, wobei sich auf lokal bearbeitete Deepfakes konzentrierte. Die Tests umfassten eine Reihe von Bearbeitungsmethoden und ältere DeepFake -Datensätze, wobei Metriken wie Fläche unter Kurve (AUC), durchschnittliche Präzision und mittlere F1 -Score verwendet wurden.
Aus dem Papier: Der Vergleich der jüngsten lokalisierten DeepFakes zeigt, dass die vorgeschlagene Methode alle anderen übertrifft, wobei sowohl AUC als auch eine durchschnittliche Präzision über den nächsten Besten am besten um 15 bis 20 Prozent gesteigert wurden.
Die Autoren stellten visuelle Vergleiche lokal manipulierter Videos zur Verfügung und zeigten die überlegene Empfindlichkeit ihrer Methode gegenüber subtilen Änderungen.
Ein echtes Video wurde mit drei verschiedenen lokalisierten Manipulationen verändert, um Fälschungen zu erzeugen, die dem Original visuell ähnlich blieben. Hier sind repräsentative Frames zusammen mit den durchschnittlichen gefälschten Erkennungswerten für jede Methode. Während vorhandene Detektoren mit diesen subtilen Änderungen zu kämpfen hatten, ordnete das vorgeschlagene Modell konsistent hohe gefälschte Wahrscheinlichkeiten zu, was eine höhere Empfindlichkeit gegenüber lokalisierten Änderungen anzeigt.
Die Forscher stellten fest, dass bestehende Erkennungsmethoden auf dem neuesten Stand der Technik mit den neuesten Techniken zur Deepfake-Generation zu kämpfen hatten, während ihre Methode eine robuste Verallgemeinerung zeigte, die hohe AUC- und durchschnittliche Präzisionswerte erzielte.
Die Leistung in herkömmlichen DeepFake -Datensätzen zeigt, dass die vorgeschlagene Methode mit führenden Ansätzen konkurrenzfähig blieb, was auf eine starke Verallgemeinerung über eine Reihe von Manipulationstypen hinweist.
Die Autoren testeten auch die Zuverlässigkeit des Modells unter realen Bedingungen und stellten fest, dass sie gegen häufige Videoverzerrungen wie Sättigungsanpassungen, Gaußsche Unschärfe und Pixelierung widerstandsfähig war.
Eine Abbildung, wie sich die Erkennungsgenauigkeit unter verschiedenen Videoverzerrungen ändert. Die neue Methode blieb in den meisten Fällen widerstandsfähig, wobei nur ein kleiner Rückgang der AUC. Der bedeutendste Abfall trat bei der Einführung von Gaußschen Rauschen auf.
Abschluss
Während die Öffentlichkeit oft an Deepfakes als Identitätswechsel betrachtet wird, ist die Realität der AI -Manipulation nuancierter und potenziell heimtückischer. Die Art der lokalen Bearbeitung, die in dieser neuen Forschung diskutiert wird, kann die öffentliche Aufmerksamkeit möglicherweise erst aufnehmen, wenn ein weiterer hochkarätiger Vorfall auftritt. Wie der Schauspieler Nic Cage betont hat, ist das Potenzial für Postproduktionspotentationen zur Änderung von Leistungen jedoch ein Problem, von dem wir uns alle bewusst sein sollten. Wir sind natürlich auch für die geringsten Veränderungen der Gesichtsausdrücke empfindlich, und der Kontext kann ihre Auswirkungen dramatisch verändern.
Erst veröffentlicht am Mittwoch, 2. April 2025
Verwandter Artikel
Civitai tăng cường các quy định của Deepfake trong bối cảnh áp lực từ Thẻ Mastercard và Visa
Civitai, một trong những kho lưu trữ mô hình AI nổi bật nhất trên Internet, gần đây đã thực hiện những thay đổi đáng kể đối với các chính sách của mình về nội dung NSFW, đặc biệt liên quan đến người nổi tiếng Loras. Những thay đổi này đã được thúc đẩy bởi áp lực từ MasterCard và Visa của người hỗ trợ thanh toán. Người nổi tiếng Loras, đó là bạn
Google sử dụng AI để đình chỉ hơn 39 triệu tài khoản AD vì bị nghi ngờ gian lận
Google đã công bố vào thứ Tư rằng họ đã có một bước quan trọng trong việc chống gian lận quảng cáo bằng cách đình chỉ một tài khoản nhà quảng cáo đáng kinh ngạc 39,2 triệu trên nền tảng của mình vào năm 2024.
Tạo video AI chuyển sang kiểm soát hoàn toàn
Các mô hình nền tảng video như Hunyuan và WAN 2.1 đã có những bước tiến đáng kể, nhưng chúng thường bị thiếu hụt khi nói đến điều khiển chi tiết cần thiết trong sản xuất phim và TV, đặc biệt là trong lĩnh vực hiệu ứng hình ảnh (VFX). Trong VFX Studios chuyên nghiệp, những mô hình này, cùng với hình ảnh trước đó
Kommentare (25)
0/200
KevinAnderson
13. April 2025 16:16:26 GMT
The Nancy Pelosi video was a wake-up call! It's scary how easily AI can manipulate videos. I appreciate the app for showing how subtle changes can have big impacts. But it's also a bit unsettling; makes you question what's real. Needs more transparency, I think.
0
NicholasYoung
13. April 2025 01:51:07 GMT
ナンシー・ペロシのビデオは目覚まし時計のようなものでした!AIがどれだけ簡単にビデオを操作できるかは恐ろしいです。このアプリが微妙な変更が大きな影響を与えることを示してくれたのは良かったです。でも、ちょっと不気味ですね。本物が何か疑問に思います。もっと透明性が必要だと思います。
0
MichaelDavis
12. April 2025 11:12:26 GMT
O vídeo da Nancy Pelosi foi um alerta! É assustador como a IA pode manipular vídeos tão facilmente. Gosto do app por mostrar como mudanças sutis podem ter grandes impactos. Mas também é um pouco perturbador; faz você questionar o que é real. Precisa de mais transparência, acho eu.
0
JustinNelson
14. April 2025 01:30:55 GMT
नैन्सी पेलोसी का वीडियो एक जागृति कॉल था! यह डरावना है कि AI कितनी आसानी से वीडियो को मैनिपुलेट कर सकता है। मुझे ऐप पसंद है कि यह दिखाता है कि सूक्ष्म परिवर्तन कैसे बड़े प्रभाव डाल सकते हैं। लेकिन यह भी थोड़ा असहज है; आपको यह सोचने पर मजबूर करता है कि क्या सच है। मुझे लगता है कि इसमें और पारदर्शिता की जरूरत है।
0
MarkLopez
12. April 2025 14:16:16 GMT
La vidéo de Nancy Pelosi a été un signal d'alarme ! C'est effrayant de voir à quel point l'IA peut facilement manipuler des vidéos. J'apprécie l'application pour montrer comment des changements subtils peuvent avoir un grand impact. Mais c'est aussi un peu dérangeant ; ça vous fait douter de ce qui est réel. Il faudrait plus de transparence, je pense.
0
RogerMartinez
13. April 2025 00:33:37 GMT
The Nancy Pelosi video was a wake-up call on how AI can subtly change videos to mislead us. It's scary how simple it was to make her look intoxicated. This app really shows the power of AI in media manipulation. Needs to be more accessible though, so more people can understand the risks!
0






Im Jahr 2019 zirkulierte ein irreführendes Video von Nancy Pelosi, damals Sprecher des US -Repräsentantenhauses, weit verbreitet. Das Video, das bearbeitet wurde, um sie betrunken erscheinen zu lassen, war eine starke Erinnerung daran, wie leicht manipulierte Medien die Öffentlichkeit irreführen können. Trotz seiner Einfachheit zeigte dieser Vorfall den potenziellen Schaden selbst grundlegender audiovisueller Änderungen.
Zu dieser Zeit wurde die DeepFake-Landschaft weitgehend von Autoencoder-basierten Face-Replacement-Technologien dominiert, die es seit Ende 2017 gab. Diese frühen Systeme hatten Schwierigkeiten, die nuancierten Veränderungen im Pelosi-Video vorzunehmen und sich stattdessen auf offenere Gesichtswechsel zu konzentrieren.
Der Rahmen von 2022 "Neural Emotion Director" verändert die Stimmung eines berühmten Gesichts. Quelle: https://www.youtube.com/watch?v=li6w8prdmjq
Schneller Vorlauf bis heute, und die Film- und TV-Branche erforscht zunehmend KI-gesteuerte Postproduktions-Änderungen. Dieser Trend hat sowohl Interesse als auch Kritik ausgelöst, da AI einen bisher unerreichbaren Perfektionismus ermöglicht. Als Reaktion darauf hat die Forschungsgemeinschaft verschiedene Projekte entwickelt, die sich auf „lokale Änderungen“ von Gesichtsaufkommen konzentrieren, wie z.
Expressionsbearbeitung mit dem Januar 2025 Project Magicface. Quelle: https://arxiv.org/pdf/2501.02260
Neue Gesichter, neue Falten
Die Technologie zur Erstellung dieser subtilen Änderungen ist jedoch viel schneller als unsere Fähigkeit, sie zu erkennen. Die meisten DeepFake -Erkennungsmethoden sind veraltet und konzentrieren sich auf ältere Techniken und Datensätze. Das heißt, bis zu einem jüngsten Durchbruch von Forschern in Indien.
Nachweis von subtilen lokalen Änderungen in DeepFakes: Ein echtes Video wird verändert, um Fälschungen mit nuancierten Veränderungen wie erhöhten Augenbrauen, modifizierten Geschlechtermerkmalen und Verschiebungen des Ausdrucks in Richtung Ekel (hier mit einem einzelnen Rahmen dargestellt) zu erzeugen. Quelle: https://arxiv.org/pdf/2503.22121
Diese neue Forschung zielt auf die Erkennung subtiler, lokalisierter Gesichtsmanipulationen ab, eine Art Fälschung, die oft übersehen wird. Anstatt nach breiten Inkonsistenzen oder Identitätsfehlanpassungen zu suchen, werden die Methoden auf feinen Details wie geringfügigem Ausdruck oder geringfügigen Änderungen zu bestimmten Gesichtsmerkmalen unterzogen. Es nutzt das Facial Action Coding System (FACS), das die Gesichtsausdrücke in 64 veränderliche Bereiche unterteilt.
Einige der Bestandteile von 64 Ausdruckteilen in FACS. Quelle: https://www.cs.cmu.edu/~face/facs.htm
Die Forscher testeten ihren Ansatz gegen verschiedene aktuelle Bearbeitungsmethoden und stellten fest, dass sie vorhandene Lösungen durchweg übertroffen hat, selbst bei älteren Datensätzen und neueren Angriffsvektoren.
Durch die Verwendung von AU-basierten Funktionen, um Videodarstellungen zu leiten, die durch maskierte Autocoders (MAE) gelernt werden, erfasst unsere Methode effektiv lokalisierte Änderungen, die für die Erkennung von subtilen Gesichtsbearbeitungen entscheidend sind.
"Dieser Ansatz ermöglicht es uns, eine einheitliche latente Darstellung zu erstellen, die sowohl lokalisierte Änderungen als auch breitere Veränderungen in Gesichts-zentrierten Videos codiert und eine umfassende und anpassbare Lösung für die DeepFake-Erkennung bietet."
Das Papier mit dem Titel "Detecting lokalisierte DeepFake-Manipulationen unter Verwendung von Aktionseinheit" -Geviting Video Repräsentationen wurde von Forschern am Indian Institute of Technology in Madras verfasst.
Verfahren
Die Methode beginnt damit, Gesichter in einem Video zu erkennen und gleichmäßig verteilte Frames auf diesen Gesichtern zu probieren. Diese Rahmen werden dann in kleine 3D -Flecken unterteilt, wodurch lokale räumliche und zeitliche Details erfasst werden.
Schema für die neue Methode. Das Eingangsvideo wird mit Gesichtserkennung verarbeitet, um gleichmäßig verteilte, faderzentrierte Frames zu extrahieren, die dann in "tubuläre" Flecken unterteilt und durch einen Encoder geführt werden, der latente Darstellungen von zwei vorab vorbereiteten Pretxt-Aufgaben verschmilzt. Der resultierende Vektor wird dann von einem Klassifikator verwendet, um festzustellen, ob das Video real oder falsch ist.
Jedes Patch enthält ein kleines Fenster von Pixeln aus einigen aufeinanderfolgenden Frames, sodass das Modell kurzfristige Bewegung und Expressionsänderungen lernen kann. Diese Patches sind eingebettet und positionell codiert, bevor sie in einen Encoder eingespeist werden, der real von gefälschten Videos unterscheidet.
Die Herausforderung, subtile Manipulationen zu erkennen, wird durch die Verwendung eines Encoders angesprochen, der zwei Arten von gelernten Darstellungen durch einen Kreuzbewegungsmechanismus kombiniert, der darauf abzielt, einen empfindlicheren und verallgemeinerbaren Merkmalsraum zu schaffen.
Vorwand Aufgaben
Die erste Darstellung stammt von einem Encoder, der mit einer maskierten Autoencodierungsaufgabe trainiert wurde. Durch das Verstecken der meisten 3D -Patches des Videos lernt der Encoder, die fehlenden Teile zu rekonstruieren und wichtige räumlich -zeitliche Muster wie Gesichtsbewegung zu erfassen.
Das Training für das Task-Training von Pretext umfasst die Maskierung von Teilen der Videoeingabe und die Verwendung eines Encoder-Decoder-Setups, um je nach Aufgabe entweder die ursprünglichen Frames oder die Aktionseinheitskarten pro Frame-Aktion zu rekonstruieren.
Dies allein reicht jedoch nicht aus, um feinkörnige Änderungen zu erkennen. Die Forscher führten einen zweiten Encoder ein, der zum Erkennen von Gesichtsbewegungseinheiten (AUS) ausgebildet wurde, um sich auf lokalisierte Muskelaktivitäten zu konzentrieren, bei denen häufig subtile DeepFake -Änderungen auftreten.
Weitere Beispiele für Gesichtsaktionseinheiten (FAUS oder AUS). Quelle: https://www.eigroup.com/the-facial-action-coding-System/
Nach der Vorabbildung werden die Ausgänge beider Encoder unter Verwendung von Kreuzbewegungen kombiniert, wobei die auf AU-basierten Merkmale die Aufmerksamkeit über die räumlich-zeitlichen Merkmale lenken. Dies führt zu einer verschmolzenen latenten Darstellung, die sowohl einen breiteren Bewegungskontext als auch lokalisierte Expressionsdetails erfasst, die für die endgültige Klassifizierungsaufgabe verwendet werden.
Daten und Tests
Durchführung
Das System wurde unter Verwendung des FaceXzoo Pytorch-basierten Gesichtserkennungsrahmens implementiert und extrahierte 16 Gesichts-zentrierte Frames aus jedem Videoclip. Die Vorwandsaufgaben wurden auf dem Celebv-HQ-Datensatz geschult, der 35.000 qualitativ hochwertige Gesichtsvideos umfasst.
Aus dem Quellpapier Beispiele aus dem im neuen Projekt verwendeten Celebv-HQ-Datensatz. Quelle: https://arxiv.org/pdf/2207.12393
Die Hälfte der Daten wurde maskiert, um eine Überanpassung zu verhindern. Für die maskierte Rahmenrekonstruktionsaufgabe wurde das Modell geschult, um fehlende Regionen mit L1 -Verlust vorherzusagen. Für die zweite Aufgabe wurde es geschult, Karten für 16 Gesichtsbewegungseinheiten zu generieren, die durch L1 -Verlust überwacht wurden.
Nach der Vorbereitung wurden die Encoder unter Verwendung des Datensatzes mit FaceForensics ++ als DeepFake-Erkennung fusioniert und für die DeepFake-Erkennung feinstabiert, die sowohl reale als auch manipulierte Videos enthält.
Der Datensatz mit FaceForensics ++ ist seit 2017 der Eckpfeiler der DeepFake -Erkennung, obwohl er in Bezug auf die neuesten Techniken der Gesichtssynthese nun erheblich veraltet ist. Quelle: https://www.youtube.com/watch?v=x2g48q2i2zq
Um das Ungleichgewicht des Unterrichts anzugehen, verwendeten die Autoren einen Schwerpunktverlust und betonten während des Trainings herausfordernde Beispiele. Das gesamte Training wurde an einer einzigen RTX 4090-GPU mit 24 GB VRAM unter Verwendung vorgeburerer Checkpoints von Videomae durchgeführt.
Tests
Die Methode wurde anhand verschiedener DeepFake-Detektionstechniken bewertet, wobei sich auf lokal bearbeitete Deepfakes konzentrierte. Die Tests umfassten eine Reihe von Bearbeitungsmethoden und ältere DeepFake -Datensätze, wobei Metriken wie Fläche unter Kurve (AUC), durchschnittliche Präzision und mittlere F1 -Score verwendet wurden.
Aus dem Papier: Der Vergleich der jüngsten lokalisierten DeepFakes zeigt, dass die vorgeschlagene Methode alle anderen übertrifft, wobei sowohl AUC als auch eine durchschnittliche Präzision über den nächsten Besten am besten um 15 bis 20 Prozent gesteigert wurden.
Die Autoren stellten visuelle Vergleiche lokal manipulierter Videos zur Verfügung und zeigten die überlegene Empfindlichkeit ihrer Methode gegenüber subtilen Änderungen.
Ein echtes Video wurde mit drei verschiedenen lokalisierten Manipulationen verändert, um Fälschungen zu erzeugen, die dem Original visuell ähnlich blieben. Hier sind repräsentative Frames zusammen mit den durchschnittlichen gefälschten Erkennungswerten für jede Methode. Während vorhandene Detektoren mit diesen subtilen Änderungen zu kämpfen hatten, ordnete das vorgeschlagene Modell konsistent hohe gefälschte Wahrscheinlichkeiten zu, was eine höhere Empfindlichkeit gegenüber lokalisierten Änderungen anzeigt.
Die Forscher stellten fest, dass bestehende Erkennungsmethoden auf dem neuesten Stand der Technik mit den neuesten Techniken zur Deepfake-Generation zu kämpfen hatten, während ihre Methode eine robuste Verallgemeinerung zeigte, die hohe AUC- und durchschnittliche Präzisionswerte erzielte.
Die Leistung in herkömmlichen DeepFake -Datensätzen zeigt, dass die vorgeschlagene Methode mit führenden Ansätzen konkurrenzfähig blieb, was auf eine starke Verallgemeinerung über eine Reihe von Manipulationstypen hinweist.
Die Autoren testeten auch die Zuverlässigkeit des Modells unter realen Bedingungen und stellten fest, dass sie gegen häufige Videoverzerrungen wie Sättigungsanpassungen, Gaußsche Unschärfe und Pixelierung widerstandsfähig war.
Eine Abbildung, wie sich die Erkennungsgenauigkeit unter verschiedenen Videoverzerrungen ändert. Die neue Methode blieb in den meisten Fällen widerstandsfähig, wobei nur ein kleiner Rückgang der AUC. Der bedeutendste Abfall trat bei der Einführung von Gaußschen Rauschen auf.
Abschluss
Während die Öffentlichkeit oft an Deepfakes als Identitätswechsel betrachtet wird, ist die Realität der AI -Manipulation nuancierter und potenziell heimtückischer. Die Art der lokalen Bearbeitung, die in dieser neuen Forschung diskutiert wird, kann die öffentliche Aufmerksamkeit möglicherweise erst aufnehmen, wenn ein weiterer hochkarätiger Vorfall auftritt. Wie der Schauspieler Nic Cage betont hat, ist das Potenzial für Postproduktionspotentationen zur Änderung von Leistungen jedoch ein Problem, von dem wir uns alle bewusst sein sollten. Wir sind natürlich auch für die geringsten Veränderungen der Gesichtsausdrücke empfindlich, und der Kontext kann ihre Auswirkungen dramatisch verändern.
Erst veröffentlicht am Mittwoch, 2. April 2025



The Nancy Pelosi video was a wake-up call! It's scary how easily AI can manipulate videos. I appreciate the app for showing how subtle changes can have big impacts. But it's also a bit unsettling; makes you question what's real. Needs more transparency, I think.




ナンシー・ペロシのビデオは目覚まし時計のようなものでした!AIがどれだけ簡単にビデオを操作できるかは恐ろしいです。このアプリが微妙な変更が大きな影響を与えることを示してくれたのは良かったです。でも、ちょっと不気味ですね。本物が何か疑問に思います。もっと透明性が必要だと思います。




O vídeo da Nancy Pelosi foi um alerta! É assustador como a IA pode manipular vídeos tão facilmente. Gosto do app por mostrar como mudanças sutis podem ter grandes impactos. Mas também é um pouco perturbador; faz você questionar o que é real. Precisa de mais transparência, acho eu.




नैन्सी पेलोसी का वीडियो एक जागृति कॉल था! यह डरावना है कि AI कितनी आसानी से वीडियो को मैनिपुलेट कर सकता है। मुझे ऐप पसंद है कि यह दिखाता है कि सूक्ष्म परिवर्तन कैसे बड़े प्रभाव डाल सकते हैं। लेकिन यह भी थोड़ा असहज है; आपको यह सोचने पर मजबूर करता है कि क्या सच है। मुझे लगता है कि इसमें और पारदर्शिता की जरूरत है।




La vidéo de Nancy Pelosi a été un signal d'alarme ! C'est effrayant de voir à quel point l'IA peut facilement manipuler des vidéos. J'apprécie l'application pour montrer comment des changements subtils peuvent avoir un grand impact. Mais c'est aussi un peu dérangeant ; ça vous fait douter de ce qui est réel. Il faudrait plus de transparence, je pense.




The Nancy Pelosi video was a wake-up call on how AI can subtly change videos to mislead us. It's scary how simple it was to make her look intoxicated. This app really shows the power of AI in media manipulation. Needs to be more accessible though, so more people can understand the risks!












