प्रामाणिक वीडियो सामग्री में सूक्ष्म अभी तक प्रभावशाली एआई संशोधनों का अनावरण
2019 में, नैन्सी पेलोसी का एक भ्रामक वीडियो, फिर यूएस हाउस ऑफ रिप्रेजेंटेटिव्स के अध्यक्ष, व्यापक रूप से प्रसारित किया गया। वीडियो, जिसे उसे नशे में दिखाने के लिए संपादित किया गया था, एक स्पष्ट याद दिलाता था कि मीडिया कितनी आसानी से हेरफेर कर सकता था। अपनी सादगी के बावजूद, इस घटना ने मूल ऑडियो-विजुअल एडिट्स के संभावित नुकसान को उजागर किया।
उस समय, डीपफेक लैंडस्केप काफी हद तक ऑटोकेन्डर-आधारित फेस-रिप्लेसमेंट टेक्नोलॉजीज पर हावी था, जो 2017 के अंत से आसपास था। ये शुरुआती सिस्टम पेलोसी वीडियो में देखे गए बारीक परिवर्तनों को करने के लिए संघर्ष कर रहे थे, इसके बजाय अधिक ओवरट फेस स्वैप पर ध्यान केंद्रित कर रहे थे।
2022 'न्यूरल इमोशन डायरेक्टर' फ्रेमवर्क एक प्रसिद्ध चेहरे के मूड को बदल देता है। स्रोत: https://www.youtube.com/watch?v=li6w8prdmjq
आज के लिए तेजी से आगे, और फिल्म और टीवी उद्योग तेजी से एआई-चालित पोस्ट-प्रोडक्शन एडिट्स की खोज कर रहा है। इस प्रवृत्ति ने रुचि और आलोचना दोनों को जन्म दिया है, क्योंकि एआई पूर्णतावाद के एक स्तर को सक्षम करता है जो पहले अप्राप्य था। जवाब में, अनुसंधान समुदाय ने विभिन्न परियोजनाओं को विकसित किया है, जो चेहरे के कैप्चर के 'स्थानीय संपादन' पर केंद्रित हैं, जैसे कि डिफ्यूजन वीडियो ऑटोएन्कोडर्स, इसे समय, चैटफेस, मैजिकफेस और डिस्को में सिलाई करें।
जनवरी 2025 प्रोजेक्ट मैजिकफेस के साथ अभिव्यक्ति-संपादन। स्रोत: https://arxiv.org/pdf/2501.022260
नए चेहरे, नई झुर्रियाँ
हालांकि, इन सूक्ष्म संपादनों को बनाने की तकनीक उन्हें पता लगाने की हमारी क्षमता की तुलना में बहुत तेजी से आगे बढ़ रही है। अधिकांश डीपफेक डिटेक्शन के तरीके पुराने हैं, जो पुरानी तकनीकों और डेटासेट पर ध्यान केंद्रित कर रहे हैं। यही है, भारत में शोधकर्ताओं की हालिया सफलता तक।
डीपफेक में सूक्ष्म स्थानीय संपादन का पता लगाना: एक वास्तविक वीडियो को बदल दिया जाता है, जैसे कि उभरी हुई भौंहों, संशोधित लिंग लक्षणों, और अभिव्यक्ति में बदलाव के साथ बारीक परिवर्तनों के साथ नकली परिवर्तन का उत्पादन करने के लिए (एक ही फ्रेम के साथ यहां सचित्र)। स्रोत: https://arxiv.org/pdf/2503.22121
यह नया शोध सूक्ष्म, स्थानीयकृत चेहरे की जोड़तोड़ का पता लगाने को लक्षित करता है, एक प्रकार का जालसाजी अक्सर अनदेखी की जाती है। व्यापक विसंगतियों या पहचान के बेमेल की तलाश करने के बजाय, विधि निश्चित विवरणों पर ठीक विवरणों पर शून्य है जैसे कि मामूली अभिव्यक्ति शिफ्ट या विशिष्ट चेहरे की विशेषताओं के लिए मामूली संपादन। यह फेशियल एक्शन कोडिंग सिस्टम (FACS) का लाभ उठाता है, जो चेहरे के भावों को 64 उत्परिवर्तित क्षेत्रों में तोड़ देता है।
एफएसीएस में कुछ घटक 64 अभिव्यक्ति भागों में से कुछ। स्रोत: https://www.cs.cmu.edu/~face/facs.htm
शोधकर्ताओं ने विभिन्न हालिया संपादन विधियों के खिलाफ अपने दृष्टिकोण का परीक्षण किया और पाया कि यह लगातार मौजूदा समाधानों से बेहतर है, यहां तक कि पुराने डेटासेट और नए हमले वैक्टर के साथ।
'एयू-आधारित सुविधाओं का उपयोग करके नकाबपोश ऑटोएन्कोडर्स (एमएई) के माध्यम से सीखा वीडियो प्रतिनिधित्व का मार्गदर्शन करने के लिए, हमारी विधि सूक्ष्म चेहरे के संपादन का पता लगाने के लिए स्थानीयकृत परिवर्तनों को प्रभावी ढंग से पकड़ती है।
'यह दृष्टिकोण हमें एक एकीकृत अव्यक्त प्रतिनिधित्व का निर्माण करने में सक्षम बनाता है जो स्थानीयकृत संपादन और चेहरे-केंद्रित वीडियो में व्यापक परिवर्तन दोनों को एन्कोड करता है, जो डीपफेक डिटेक्शन के लिए एक व्यापक और अनुकूलनीय समाधान प्रदान करता है।'
एक्शन यूनिट-निर्देशित वीडियो अभ्यावेदन का उपयोग करके स्थानीयकृत डीपफेक जोड़तोड़ का पता लगाने वाले पेपर को मद्रास में भारतीय प्रौद्योगिकी संस्थान के शोधकर्ताओं द्वारा लिखा गया था।
तरीका
विधि एक वीडियो में चेहरों का पता लगाने और इन चेहरों पर केंद्रित समान रूप से फैले हुए फ्रेम का नमूना लेने से शुरू होती है। इन फ्रेमों को तब छोटे 3 डी पैच में तोड़ दिया जाता है, जो स्थानीय स्थानिक और लौकिक विवरणों को कैप्चर करते हैं।
नई विधि के लिए स्कीमा। इनपुट वीडियो को समान रूप से फैले हुए, चेहरे-केंद्रित फ्रेम को निकालने के लिए चेहरे का पता लगाने के साथ संसाधित किया जाता है, जिसे बाद में 'ट्यूबलर' पैच में विभाजित किया जाता है और एक एनकोडर के माध्यम से पारित किया जाता है जो दो दिखावा करने वाले पूर्व कार्यों से अव्यक्त प्रतिनिधित्व को फ़्यूज़ करता है। परिणामी वेक्टर का उपयोग तब क्लासिफायर द्वारा किया जाता है, यह निर्धारित करने के लिए कि वीडियो वास्तविक है या नकली है।
प्रत्येक पैच में कुछ क्रमिक फ्रेम से पिक्सेल की एक छोटी खिड़की होती है, जिससे मॉडल को अल्पकालिक गति और अभिव्यक्ति परिवर्तन सीखने की अनुमति मिलती है। इन पैच को फर्जी वीडियो से वास्तविक को अलग करने के लिए डिज़ाइन किए गए एनकोडर में खिलाए जाने से पहले एम्बेडेड और पोजिशनली एन्कोड किया जाता है।
सूक्ष्म जोड़तोड़ का पता लगाने की चुनौती को एक एनकोडर का उपयोग करके संबोधित किया जाता है जो एक क्रॉस-अटेंशन तंत्र के माध्यम से दो प्रकार के सीखा अभ्यावेदन को जोड़ती है, जिसका उद्देश्य एक अधिक संवेदनशील और सामान्य सुविधा स्थान बनाना है।
बहाना कार्य
पहला प्रतिनिधित्व एक नकाबपोश ऑटोएन्कोडिंग कार्य के साथ प्रशिक्षित एनकोडर से आता है। वीडियो के अधिकांश 3 डी पैच को छिपाकर, एनकोडर लापता भागों को फिर से संगठित करना सीखता है, जो चेहरे की गति जैसे महत्वपूर्ण स्पैटियोटेम्पोरल पैटर्न को कैप्चर करता है।
प्रीटेक्स्ट टास्क प्रशिक्षण में वीडियो इनपुट के भागों को मास्क करना और कार्य के आधार पर मूल फ्रेम या प्रति-फ्रेम एक्शन यूनिट मैप्स को फिर से संगठित करने के लिए एनकोडर-डिकोडर सेटअप का उपयोग करना शामिल है।
हालांकि, यह अकेले ठीक-ठीक संपादन का पता लगाने के लिए पर्याप्त नहीं है। शोधकर्ताओं ने चेहरे की कार्रवाई इकाइयों (एयूएस) का पता लगाने के लिए प्रशिक्षित एक दूसरे एनकोडर की शुरुआत की, जिससे इसे स्थानीय मांसपेशी गतिविधि पर ध्यान केंद्रित करने के लिए प्रोत्साहित किया गया जहां सूक्ष्म डीपफेक एडिट अक्सर होते हैं।
चेहरे की कार्रवाई इकाइयों (FAUS, या AUS) के आगे के उदाहरण। स्रोत: https://www.eiagroup.com/the-facial-action-coding-system/
प्रीट्रेनिंग के बाद, दोनों एन्कोडर्स के आउटपुट को क्रॉस-अटेंशन का उपयोग करके जोड़ा जाता है, एयू-आधारित सुविधाओं के साथ स्थानिक-टेम्पोरल विशेषताओं पर ध्यान देने का मार्गदर्शन किया जाता है। यह एक फ्यूज्ड अव्यक्त प्रतिनिधित्व में परिणाम है जो व्यापक गति संदर्भ और स्थानीयकृत अभिव्यक्ति विवरण दोनों को कैप्चर करता है, जिसका उपयोग अंतिम वर्गीकरण कार्य के लिए किया जाता है।
डेटा और परीक्षण
कार्यान्वयन
प्रत्येक वीडियो क्लिप से 16 फेस-केंद्रित फ़्रेम निकालते हुए, Facexzoo Pytorch- आधारित फेस डिटेक्शन फ्रेमवर्क का उपयोग करके सिस्टम को लागू किया गया था। प्रीटेक्स्ट कार्यों को Celebv-HQ डेटासेट पर प्रशिक्षित किया गया था, जिसमें 35,000 उच्च गुणवत्ता वाले चेहरे के वीडियो शामिल हैं।
सोर्स पेपर से, नई प्रोजेक्ट में इस्तेमाल किए गए सेलेबव-एचक्यू डेटासेट से उदाहरण। स्रोत: https://arxiv.org/pdf/2207.12393
ओवरफिटिंग को रोकने के लिए आधे डेटा को नकाबपोश किया गया था। नकाबपोश फ्रेम पुनर्निर्माण कार्य के लिए, मॉडल को L1 नुकसान का उपयोग करके लापता क्षेत्रों की भविष्यवाणी करने के लिए प्रशिक्षित किया गया था। दूसरे कार्य के लिए, इसे 16 चेहरे की कार्रवाई इकाइयों के लिए नक्शे उत्पन्न करने के लिए प्रशिक्षित किया गया था, जिसे L1 नुकसान द्वारा पर्यवेक्षण किया गया था।
प्रीट्रेनिंग के बाद, एन्कोडर्स को फेसफोरेंसिक ++ डेटासेट का उपयोग करके डीपफेक डिटेक्शन के लिए फ्यूज्ड और फाइन-ट्यून किया गया था, जिसमें वास्तविक और हेरफेर दोनों वीडियो शामिल हैं।
FaceForensics ++ डेटासेट 2017 के बाद से DeepFake डिटेक्शन की आधारशिला रहा है, हालांकि यह अब नवीनतम चेहरे की संश्लेषण तकनीकों के संबंध में काफी पुराना है। स्रोत: https://www.youtube.com/watch?v=x2G48Q2I2ZQ
कक्षा के असंतुलन को संबोधित करने के लिए, लेखकों ने फोकल लॉस का उपयोग किया, प्रशिक्षण के दौरान अधिक चुनौतीपूर्ण उदाहरणों पर जोर दिया। सभी प्रशिक्षण एक एकल RTX 4090 GPU पर 24GB VRAM के साथ आयोजित किए गए थे, जो कि वीडियोोमा से पूर्व-प्रशिक्षित चौकियों का उपयोग करते हैं।
परीक्षण
विधि का मूल्यांकन विभिन्न डीपफेक डिटेक्शन तकनीकों के खिलाफ किया गया था, जो स्थानीय रूप से संपादित डीपफेक पर ध्यान केंद्रित कर रहा था। परीक्षणों में वक्र (एयूसी), औसत परिशुद्धता और मतलब एफ 1 स्कोर के तहत क्षेत्र जैसे मैट्रिक्स का उपयोग करते हुए, संपादन विधियों और पुराने डीपफेक डेटासेट की एक श्रृंखला शामिल थी।
पेपर से: हाल के स्थानीयकृत डीपफेक पर तुलना से पता चलता है कि प्रस्तावित विधि ने अन्य सभी को बेहतर बनाया, जिसमें एयूसी और अगले सर्वश्रेष्ठ दृष्टिकोण पर औसत सटीकता दोनों में 15 से 20 प्रतिशत लाभ हुआ।
लेखकों ने स्थानीय रूप से हेरफेर किए गए वीडियो की दृश्य तुलना प्रदान की, जो सूक्ष्म संपादन के लिए उनकी विधि की बेहतर संवेदनशीलता दिखाती है।
एक वास्तविक वीडियो को तीन अलग -अलग स्थानीयकृत जोड़तोड़ का उपयोग करके बदल दिया गया था, जो मूल के समान बने रहने वाले फेक का उत्पादन करने के लिए थे। यहां दिखाया गया है कि प्रत्येक विधि के लिए औसत नकली पहचान स्कोर के साथ प्रतिनिधि फ्रेम हैं। जबकि मौजूदा डिटेक्टरों ने इन सूक्ष्म संपादन के साथ संघर्ष किया, प्रस्तावित मॉडल ने लगातार उच्च नकली संभावनाओं को सौंपा, जो स्थानीय परिवर्तनों के प्रति अधिक संवेदनशीलता का संकेत देता है।
शोधकर्ताओं ने कहा कि मौजूदा अत्याधुनिक पहचान के तरीकों ने नवीनतम डीपफेक पीढ़ी तकनीकों के साथ संघर्ष किया, जबकि उनकी विधि ने मजबूत सामान्यीकरण दिखाया, उच्च एयूसी और औसत सटीक स्कोर प्राप्त किया।
पारंपरिक डीपफेक डेटासेट पर प्रदर्शन से पता चलता है कि प्रस्तावित विधि प्रमुख दृष्टिकोणों के साथ प्रतिस्पर्धी बनी रही, जो हेरफेर प्रकारों की एक श्रृंखला में मजबूत सामान्यीकरण का संकेत देती है।
लेखकों ने वास्तविक दुनिया की परिस्थितियों में मॉडल की विश्वसनीयता का भी परीक्षण किया, यह संतृप्ति समायोजन, गाऊसी धब्बा और पिक्सेलेशन जैसे सामान्य वीडियो विकृतियों के लिए लचीला पाया।
अलग -अलग वीडियो विकृतियों के तहत सटीकता का पता लगाने का एक चित्रण कैसे होता है। नई विधि ज्यादातर मामलों में लचीला बनी रही, केवल एयूसी में एक छोटी सी गिरावट के साथ। सबसे महत्वपूर्ण गिरावट तब हुई जब गाऊसी शोर को पेश किया गया था।
निष्कर्ष
जबकि जनता अक्सर डीपफेक को पहचान स्वैप के रूप में सोचती है, एआई हेरफेर की वास्तविकता अधिक बारीक और संभावित रूप से अधिक कपटी है। इस नए शोध में जिस तरह के स्थानीय संपादन पर चर्चा की गई है, वह एक और हाई-प्रोफाइल घटना होने तक जनता का ध्यान आकर्षित नहीं कर सकती है। फिर भी, जैसा कि अभिनेता निक केज ने बताया है, प्रदर्शन को बदलने के लिए पोस्ट-प्रोडक्शन एडिट के लिए क्षमता एक चिंता है, जिसके बारे में हमें पता होना चाहिए। हम स्वाभाविक रूप से चेहरे के भावों में मामूली बदलाव के प्रति भी संवेदनशील हैं, और संदर्भ नाटकीय रूप से उनके प्रभाव को बदल सकता है।
पहली बार बुधवार, 2 अप्रैल, 2025 को प्रकाशित किया गया
संबंधित लेख
Civitaiは、MasterCardとVisaからの圧力の中で深海規制を強化します
インターネット上で最も顕著なAIモデルリポジトリの1つであるCivitaiは、最近、特に有名人のLorasに関して、NSFWコンテンツに関するポリシーに大きな変更を加えました。これらの変更は、支払いファシリテーターのマスターカードとビザからの圧力によって拍車がかかりました。有名人のロラ、それはあなたです
GoogleはAIを利用して、詐欺の疑いのために3900万を超える広告アカウントを一時停止します
Googleは水曜日に、2024年にプラットフォームで驚異的な3920万の広告主アカウントを停止することにより、広告詐欺との大きな一歩を踏み出したと発表しました。
AIビデオ生成は完全な制御に向かって移動します
HunyuanやWAN 2.1のようなビデオファンデーションモデルは大きな進歩を遂げましたが、映画やテレビ制作、特に視覚効果(VFX)で必要な詳細なコントロールに関しては、しばしば不足しています。プロのVFXスタジオでは、これらのモデルと以前の画像バスとともに
सूचना (40)
0/200
KevinAnderson
14 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
The Nancy Pelosi video was a wake-up call! It's scary how easily AI can manipulate videos. I appreciate the app for showing how subtle changes can have big impacts. But it's also a bit unsettling; makes you question what's real. Needs more transparency, I think.
0
NicholasYoung
13 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
ナンシー・ペロシのビデオは目覚まし時計のようなものでした!AIがどれだけ簡単にビデオを操作できるかは恐ろしいです。このアプリが微妙な変更が大きな影響を与えることを示してくれたのは良かったです。でも、ちょっと不気味ですね。本物が何か疑問に思います。もっと透明性が必要だと思います。
0
MichaelDavis
12 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
O vídeo da Nancy Pelosi foi um alerta! É assustador como a IA pode manipular vídeos tão facilmente. Gosto do app por mostrar como mudanças sutis podem ter grandes impactos. Mas também é um pouco perturbador; faz você questionar o que é real. Precisa de mais transparência, acho eu.
0
JustinNelson
14 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
नैन्सी पेलोसी का वीडियो एक जागृति कॉल था! यह डरावना है कि AI कितनी आसानी से वीडियो को मैनिपुलेट कर सकता है। मुझे ऐप पसंद है कि यह दिखाता है कि सूक्ष्म परिवर्तन कैसे बड़े प्रभाव डाल सकते हैं। लेकिन यह भी थोड़ा असहज है; आपको यह सोचने पर मजबूर करता है कि क्या सच है। मुझे लगता है कि इसमें और पारदर्शिता की जरूरत है।
0
MarkLopez
12 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
La vidéo de Nancy Pelosi a été un signal d'alarme ! C'est effrayant de voir à quel point l'IA peut facilement manipuler des vidéos. J'apprécie l'application pour montrer comment des changements subtils peuvent avoir un grand impact. Mais c'est aussi un peu dérangeant ; ça vous fait douter de ce qui est réel. Il faudrait plus de transparence, je pense.
0
RogerMartinez
13 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
The Nancy Pelosi video was a wake-up call on how AI can subtly change videos to mislead us. It's scary how simple it was to make her look intoxicated. This app really shows the power of AI in media manipulation. Needs to be more accessible though, so more people can understand the risks!
0
2019 में, नैन्सी पेलोसी का एक भ्रामक वीडियो, फिर यूएस हाउस ऑफ रिप्रेजेंटेटिव्स के अध्यक्ष, व्यापक रूप से प्रसारित किया गया। वीडियो, जिसे उसे नशे में दिखाने के लिए संपादित किया गया था, एक स्पष्ट याद दिलाता था कि मीडिया कितनी आसानी से हेरफेर कर सकता था। अपनी सादगी के बावजूद, इस घटना ने मूल ऑडियो-विजुअल एडिट्स के संभावित नुकसान को उजागर किया।
उस समय, डीपफेक लैंडस्केप काफी हद तक ऑटोकेन्डर-आधारित फेस-रिप्लेसमेंट टेक्नोलॉजीज पर हावी था, जो 2017 के अंत से आसपास था। ये शुरुआती सिस्टम पेलोसी वीडियो में देखे गए बारीक परिवर्तनों को करने के लिए संघर्ष कर रहे थे, इसके बजाय अधिक ओवरट फेस स्वैप पर ध्यान केंद्रित कर रहे थे।
2022 'न्यूरल इमोशन डायरेक्टर' फ्रेमवर्क एक प्रसिद्ध चेहरे के मूड को बदल देता है। स्रोत: https://www.youtube.com/watch?v=li6w8prdmjq
आज के लिए तेजी से आगे, और फिल्म और टीवी उद्योग तेजी से एआई-चालित पोस्ट-प्रोडक्शन एडिट्स की खोज कर रहा है। इस प्रवृत्ति ने रुचि और आलोचना दोनों को जन्म दिया है, क्योंकि एआई पूर्णतावाद के एक स्तर को सक्षम करता है जो पहले अप्राप्य था। जवाब में, अनुसंधान समुदाय ने विभिन्न परियोजनाओं को विकसित किया है, जो चेहरे के कैप्चर के 'स्थानीय संपादन' पर केंद्रित हैं, जैसे कि डिफ्यूजन वीडियो ऑटोएन्कोडर्स, इसे समय, चैटफेस, मैजिकफेस और डिस्को में सिलाई करें।
जनवरी 2025 प्रोजेक्ट मैजिकफेस के साथ अभिव्यक्ति-संपादन। स्रोत: https://arxiv.org/pdf/2501.022260
नए चेहरे, नई झुर्रियाँ
हालांकि, इन सूक्ष्म संपादनों को बनाने की तकनीक उन्हें पता लगाने की हमारी क्षमता की तुलना में बहुत तेजी से आगे बढ़ रही है। अधिकांश डीपफेक डिटेक्शन के तरीके पुराने हैं, जो पुरानी तकनीकों और डेटासेट पर ध्यान केंद्रित कर रहे हैं। यही है, भारत में शोधकर्ताओं की हालिया सफलता तक।
डीपफेक में सूक्ष्म स्थानीय संपादन का पता लगाना: एक वास्तविक वीडियो को बदल दिया जाता है, जैसे कि उभरी हुई भौंहों, संशोधित लिंग लक्षणों, और अभिव्यक्ति में बदलाव के साथ बारीक परिवर्तनों के साथ नकली परिवर्तन का उत्पादन करने के लिए (एक ही फ्रेम के साथ यहां सचित्र)। स्रोत: https://arxiv.org/pdf/2503.22121
यह नया शोध सूक्ष्म, स्थानीयकृत चेहरे की जोड़तोड़ का पता लगाने को लक्षित करता है, एक प्रकार का जालसाजी अक्सर अनदेखी की जाती है। व्यापक विसंगतियों या पहचान के बेमेल की तलाश करने के बजाय, विधि निश्चित विवरणों पर ठीक विवरणों पर शून्य है जैसे कि मामूली अभिव्यक्ति शिफ्ट या विशिष्ट चेहरे की विशेषताओं के लिए मामूली संपादन। यह फेशियल एक्शन कोडिंग सिस्टम (FACS) का लाभ उठाता है, जो चेहरे के भावों को 64 उत्परिवर्तित क्षेत्रों में तोड़ देता है।
एफएसीएस में कुछ घटक 64 अभिव्यक्ति भागों में से कुछ। स्रोत: https://www.cs.cmu.edu/~face/facs.htm
शोधकर्ताओं ने विभिन्न हालिया संपादन विधियों के खिलाफ अपने दृष्टिकोण का परीक्षण किया और पाया कि यह लगातार मौजूदा समाधानों से बेहतर है, यहां तक कि पुराने डेटासेट और नए हमले वैक्टर के साथ।
'एयू-आधारित सुविधाओं का उपयोग करके नकाबपोश ऑटोएन्कोडर्स (एमएई) के माध्यम से सीखा वीडियो प्रतिनिधित्व का मार्गदर्शन करने के लिए, हमारी विधि सूक्ष्म चेहरे के संपादन का पता लगाने के लिए स्थानीयकृत परिवर्तनों को प्रभावी ढंग से पकड़ती है।
'यह दृष्टिकोण हमें एक एकीकृत अव्यक्त प्रतिनिधित्व का निर्माण करने में सक्षम बनाता है जो स्थानीयकृत संपादन और चेहरे-केंद्रित वीडियो में व्यापक परिवर्तन दोनों को एन्कोड करता है, जो डीपफेक डिटेक्शन के लिए एक व्यापक और अनुकूलनीय समाधान प्रदान करता है।'
एक्शन यूनिट-निर्देशित वीडियो अभ्यावेदन का उपयोग करके स्थानीयकृत डीपफेक जोड़तोड़ का पता लगाने वाले पेपर को मद्रास में भारतीय प्रौद्योगिकी संस्थान के शोधकर्ताओं द्वारा लिखा गया था।
तरीका
विधि एक वीडियो में चेहरों का पता लगाने और इन चेहरों पर केंद्रित समान रूप से फैले हुए फ्रेम का नमूना लेने से शुरू होती है। इन फ्रेमों को तब छोटे 3 डी पैच में तोड़ दिया जाता है, जो स्थानीय स्थानिक और लौकिक विवरणों को कैप्चर करते हैं।
नई विधि के लिए स्कीमा। इनपुट वीडियो को समान रूप से फैले हुए, चेहरे-केंद्रित फ्रेम को निकालने के लिए चेहरे का पता लगाने के साथ संसाधित किया जाता है, जिसे बाद में 'ट्यूबलर' पैच में विभाजित किया जाता है और एक एनकोडर के माध्यम से पारित किया जाता है जो दो दिखावा करने वाले पूर्व कार्यों से अव्यक्त प्रतिनिधित्व को फ़्यूज़ करता है। परिणामी वेक्टर का उपयोग तब क्लासिफायर द्वारा किया जाता है, यह निर्धारित करने के लिए कि वीडियो वास्तविक है या नकली है।
प्रत्येक पैच में कुछ क्रमिक फ्रेम से पिक्सेल की एक छोटी खिड़की होती है, जिससे मॉडल को अल्पकालिक गति और अभिव्यक्ति परिवर्तन सीखने की अनुमति मिलती है। इन पैच को फर्जी वीडियो से वास्तविक को अलग करने के लिए डिज़ाइन किए गए एनकोडर में खिलाए जाने से पहले एम्बेडेड और पोजिशनली एन्कोड किया जाता है।
सूक्ष्म जोड़तोड़ का पता लगाने की चुनौती को एक एनकोडर का उपयोग करके संबोधित किया जाता है जो एक क्रॉस-अटेंशन तंत्र के माध्यम से दो प्रकार के सीखा अभ्यावेदन को जोड़ती है, जिसका उद्देश्य एक अधिक संवेदनशील और सामान्य सुविधा स्थान बनाना है।
बहाना कार्य
पहला प्रतिनिधित्व एक नकाबपोश ऑटोएन्कोडिंग कार्य के साथ प्रशिक्षित एनकोडर से आता है। वीडियो के अधिकांश 3 डी पैच को छिपाकर, एनकोडर लापता भागों को फिर से संगठित करना सीखता है, जो चेहरे की गति जैसे महत्वपूर्ण स्पैटियोटेम्पोरल पैटर्न को कैप्चर करता है।
प्रीटेक्स्ट टास्क प्रशिक्षण में वीडियो इनपुट के भागों को मास्क करना और कार्य के आधार पर मूल फ्रेम या प्रति-फ्रेम एक्शन यूनिट मैप्स को फिर से संगठित करने के लिए एनकोडर-डिकोडर सेटअप का उपयोग करना शामिल है।
हालांकि, यह अकेले ठीक-ठीक संपादन का पता लगाने के लिए पर्याप्त नहीं है। शोधकर्ताओं ने चेहरे की कार्रवाई इकाइयों (एयूएस) का पता लगाने के लिए प्रशिक्षित एक दूसरे एनकोडर की शुरुआत की, जिससे इसे स्थानीय मांसपेशी गतिविधि पर ध्यान केंद्रित करने के लिए प्रोत्साहित किया गया जहां सूक्ष्म डीपफेक एडिट अक्सर होते हैं।
चेहरे की कार्रवाई इकाइयों (FAUS, या AUS) के आगे के उदाहरण। स्रोत: https://www.eiagroup.com/the-facial-action-coding-system/
प्रीट्रेनिंग के बाद, दोनों एन्कोडर्स के आउटपुट को क्रॉस-अटेंशन का उपयोग करके जोड़ा जाता है, एयू-आधारित सुविधाओं के साथ स्थानिक-टेम्पोरल विशेषताओं पर ध्यान देने का मार्गदर्शन किया जाता है। यह एक फ्यूज्ड अव्यक्त प्रतिनिधित्व में परिणाम है जो व्यापक गति संदर्भ और स्थानीयकृत अभिव्यक्ति विवरण दोनों को कैप्चर करता है, जिसका उपयोग अंतिम वर्गीकरण कार्य के लिए किया जाता है।
डेटा और परीक्षण
कार्यान्वयन
प्रत्येक वीडियो क्लिप से 16 फेस-केंद्रित फ़्रेम निकालते हुए, Facexzoo Pytorch- आधारित फेस डिटेक्शन फ्रेमवर्क का उपयोग करके सिस्टम को लागू किया गया था। प्रीटेक्स्ट कार्यों को Celebv-HQ डेटासेट पर प्रशिक्षित किया गया था, जिसमें 35,000 उच्च गुणवत्ता वाले चेहरे के वीडियो शामिल हैं।
सोर्स पेपर से, नई प्रोजेक्ट में इस्तेमाल किए गए सेलेबव-एचक्यू डेटासेट से उदाहरण। स्रोत: https://arxiv.org/pdf/2207.12393
ओवरफिटिंग को रोकने के लिए आधे डेटा को नकाबपोश किया गया था। नकाबपोश फ्रेम पुनर्निर्माण कार्य के लिए, मॉडल को L1 नुकसान का उपयोग करके लापता क्षेत्रों की भविष्यवाणी करने के लिए प्रशिक्षित किया गया था। दूसरे कार्य के लिए, इसे 16 चेहरे की कार्रवाई इकाइयों के लिए नक्शे उत्पन्न करने के लिए प्रशिक्षित किया गया था, जिसे L1 नुकसान द्वारा पर्यवेक्षण किया गया था।
प्रीट्रेनिंग के बाद, एन्कोडर्स को फेसफोरेंसिक ++ डेटासेट का उपयोग करके डीपफेक डिटेक्शन के लिए फ्यूज्ड और फाइन-ट्यून किया गया था, जिसमें वास्तविक और हेरफेर दोनों वीडियो शामिल हैं।
FaceForensics ++ डेटासेट 2017 के बाद से DeepFake डिटेक्शन की आधारशिला रहा है, हालांकि यह अब नवीनतम चेहरे की संश्लेषण तकनीकों के संबंध में काफी पुराना है। स्रोत: https://www.youtube.com/watch?v=x2G48Q2I2ZQ
कक्षा के असंतुलन को संबोधित करने के लिए, लेखकों ने फोकल लॉस का उपयोग किया, प्रशिक्षण के दौरान अधिक चुनौतीपूर्ण उदाहरणों पर जोर दिया। सभी प्रशिक्षण एक एकल RTX 4090 GPU पर 24GB VRAM के साथ आयोजित किए गए थे, जो कि वीडियोोमा से पूर्व-प्रशिक्षित चौकियों का उपयोग करते हैं।
परीक्षण
विधि का मूल्यांकन विभिन्न डीपफेक डिटेक्शन तकनीकों के खिलाफ किया गया था, जो स्थानीय रूप से संपादित डीपफेक पर ध्यान केंद्रित कर रहा था। परीक्षणों में वक्र (एयूसी), औसत परिशुद्धता और मतलब एफ 1 स्कोर के तहत क्षेत्र जैसे मैट्रिक्स का उपयोग करते हुए, संपादन विधियों और पुराने डीपफेक डेटासेट की एक श्रृंखला शामिल थी।
पेपर से: हाल के स्थानीयकृत डीपफेक पर तुलना से पता चलता है कि प्रस्तावित विधि ने अन्य सभी को बेहतर बनाया, जिसमें एयूसी और अगले सर्वश्रेष्ठ दृष्टिकोण पर औसत सटीकता दोनों में 15 से 20 प्रतिशत लाभ हुआ।
लेखकों ने स्थानीय रूप से हेरफेर किए गए वीडियो की दृश्य तुलना प्रदान की, जो सूक्ष्म संपादन के लिए उनकी विधि की बेहतर संवेदनशीलता दिखाती है।
एक वास्तविक वीडियो को तीन अलग -अलग स्थानीयकृत जोड़तोड़ का उपयोग करके बदल दिया गया था, जो मूल के समान बने रहने वाले फेक का उत्पादन करने के लिए थे। यहां दिखाया गया है कि प्रत्येक विधि के लिए औसत नकली पहचान स्कोर के साथ प्रतिनिधि फ्रेम हैं। जबकि मौजूदा डिटेक्टरों ने इन सूक्ष्म संपादन के साथ संघर्ष किया, प्रस्तावित मॉडल ने लगातार उच्च नकली संभावनाओं को सौंपा, जो स्थानीय परिवर्तनों के प्रति अधिक संवेदनशीलता का संकेत देता है।
शोधकर्ताओं ने कहा कि मौजूदा अत्याधुनिक पहचान के तरीकों ने नवीनतम डीपफेक पीढ़ी तकनीकों के साथ संघर्ष किया, जबकि उनकी विधि ने मजबूत सामान्यीकरण दिखाया, उच्च एयूसी और औसत सटीक स्कोर प्राप्त किया।
पारंपरिक डीपफेक डेटासेट पर प्रदर्शन से पता चलता है कि प्रस्तावित विधि प्रमुख दृष्टिकोणों के साथ प्रतिस्पर्धी बनी रही, जो हेरफेर प्रकारों की एक श्रृंखला में मजबूत सामान्यीकरण का संकेत देती है।
लेखकों ने वास्तविक दुनिया की परिस्थितियों में मॉडल की विश्वसनीयता का भी परीक्षण किया, यह संतृप्ति समायोजन, गाऊसी धब्बा और पिक्सेलेशन जैसे सामान्य वीडियो विकृतियों के लिए लचीला पाया।
अलग -अलग वीडियो विकृतियों के तहत सटीकता का पता लगाने का एक चित्रण कैसे होता है। नई विधि ज्यादातर मामलों में लचीला बनी रही, केवल एयूसी में एक छोटी सी गिरावट के साथ। सबसे महत्वपूर्ण गिरावट तब हुई जब गाऊसी शोर को पेश किया गया था।
निष्कर्ष
जबकि जनता अक्सर डीपफेक को पहचान स्वैप के रूप में सोचती है, एआई हेरफेर की वास्तविकता अधिक बारीक और संभावित रूप से अधिक कपटी है। इस नए शोध में जिस तरह के स्थानीय संपादन पर चर्चा की गई है, वह एक और हाई-प्रोफाइल घटना होने तक जनता का ध्यान आकर्षित नहीं कर सकती है। फिर भी, जैसा कि अभिनेता निक केज ने बताया है, प्रदर्शन को बदलने के लिए पोस्ट-प्रोडक्शन एडिट के लिए क्षमता एक चिंता है, जिसके बारे में हमें पता होना चाहिए। हम स्वाभाविक रूप से चेहरे के भावों में मामूली बदलाव के प्रति भी संवेदनशील हैं, और संदर्भ नाटकीय रूप से उनके प्रभाव को बदल सकता है।
पहली बार बुधवार, 2 अप्रैल, 2025 को प्रकाशित किया गया



The Nancy Pelosi video was a wake-up call! It's scary how easily AI can manipulate videos. I appreciate the app for showing how subtle changes can have big impacts. But it's also a bit unsettling; makes you question what's real. Needs more transparency, I think.




ナンシー・ペロシのビデオは目覚まし時計のようなものでした!AIがどれだけ簡単にビデオを操作できるかは恐ろしいです。このアプリが微妙な変更が大きな影響を与えることを示してくれたのは良かったです。でも、ちょっと不気味ですね。本物が何か疑問に思います。もっと透明性が必要だと思います。




O vídeo da Nancy Pelosi foi um alerta! É assustador como a IA pode manipular vídeos tão facilmente. Gosto do app por mostrar como mudanças sutis podem ter grandes impactos. Mas também é um pouco perturbador; faz você questionar o que é real. Precisa de mais transparência, acho eu.




नैन्सी पेलोसी का वीडियो एक जागृति कॉल था! यह डरावना है कि AI कितनी आसानी से वीडियो को मैनिपुलेट कर सकता है। मुझे ऐप पसंद है कि यह दिखाता है कि सूक्ष्म परिवर्तन कैसे बड़े प्रभाव डाल सकते हैं। लेकिन यह भी थोड़ा असहज है; आपको यह सोचने पर मजबूर करता है कि क्या सच है। मुझे लगता है कि इसमें और पारदर्शिता की जरूरत है।




La vidéo de Nancy Pelosi a été un signal d'alarme ! C'est effrayant de voir à quel point l'IA peut facilement manipuler des vidéos. J'apprécie l'application pour montrer comment des changements subtils peuvent avoir un grand impact. Mais c'est aussi un peu dérangeant ; ça vous fait douter de ce qui est réel. Il faudrait plus de transparence, je pense.




The Nancy Pelosi video was a wake-up call on how AI can subtly change videos to mislead us. It's scary how simple it was to make her look intoxicated. This app really shows the power of AI in media manipulation. Needs to be more accessible though, so more people can understand the risks!












