घर समाचार 'अपमानित' सिंथेटिक चेहरे चेहरे की पहचान तकनीक को बढ़ा सकते हैं

'अपमानित' सिंथेटिक चेहरे चेहरे की पहचान तकनीक को बढ़ा सकते हैं

25 अप्रैल 2025
KennethKing
0

मिशिगन स्टेट यूनिवर्सिटी के शोधकर्ता एक महान कारण के लिए सिंथेटिक चेहरों का उपयोग करने के लिए एक अभिनव तरीके से आए हैं - छवि मान्यता प्रणालियों की सटीकता को बढ़ाते हुए। दीपफेक घटना में योगदान देने के बजाय, इन सिंथेटिक चेहरों को वास्तविक दुनिया के वीडियो निगरानी फुटेज में पाए जाने वाले खामियों की नकल करने के लिए डिज़ाइन किया गया है।

टीम ने एक नियंत्रणीय फेस सिंथेसिस मॉड्यूल (सीएफएसएम) विकसित किया है जो एक शैली में चेहरे को पुन: उत्पन्न कर सकता है जो सीसीटीवी सिस्टम की विशिष्ट खामियों को दर्शाता है, जैसे कि चेहरे का धब्बा, कम रिज़ॉल्यूशन और सेंसर शोर। यह दृष्टिकोण लोकप्रिय डेटासेट से उच्च-गुणवत्ता वाली सेलिब्रिटी छवियों का उपयोग करने से अलग है, जो चेहरे की पहचान प्रणालियों द्वारा सामना की जाने वाली वास्तविक दुनिया की चुनौतियों पर कब्जा नहीं करते हैं।

नियंत्रणीय चेहरे संश्लेषण मॉड्यूल (CFSM) के लिए वैचारिक वास्तुकला। स्रोत: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022.pdf * नियंत्रणीय फेस सिंथेसिस मॉड्यूल (CFSM) के लिए वैचारिक वास्तुकला।

डीपफेक सिस्टम के विपरीत, जो हेड पोज़ और एक्सप्रेशन की नकल करने पर ध्यान केंद्रित करते हैं, सीएफएसएम का उद्देश्य वैकल्पिक विचारों को उत्पन्न करना है जो स्टाइल ट्रांसफर के माध्यम से लक्ष्य मान्यता प्रणाली की शैली से मेल खाते हैं। यह मॉड्यूल विशेष रूप से विरासत प्रणालियों को अपनाने के लिए उपयोगी है जो लागत की कमी के कारण अपग्रेड होने की संभावना नहीं है, लेकिन फिर भी आधुनिक चेहरे की पहचान प्रौद्योगिकियों में योगदान करने की आवश्यकता है।

CFSM का परीक्षण करते समय, शोधकर्ताओं ने कम गुणवत्ता वाले डेटा से निपटने वाली छवि मान्यता प्रणालियों में महत्वपूर्ण सुधार देखे। उन्होंने एक अप्रत्याशित लाभ की भी खोज की: लक्ष्य डेटासेट को चिह्नित करने और तुलना करने की क्षमता, जो बेंचमार्किंग की प्रक्रिया को सरल बनाती है और विभिन्न सीसीटीवी सिस्टम के लिए सिलवाया डेटासेट बनाती है।

लक्ष्य प्रणालियों की सीमाओं के अनुकूल होने के लिए चेहरे की पहचान मॉडल का प्रशिक्षण। स्रोत: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022_supp.pdf * लक्ष्य प्रणालियों की सीमाओं के अनुकूल होने के लिए चेहरे की पहचान मॉडल को प्रशिक्षित करना।

विधि को मौजूदा डेटासेट पर भी लागू किया जा सकता है, प्रभावी रूप से उन्हें चेहरे की पहचान के लिए अधिक उपयुक्त बनाने के लिए डोमेन अनुकूलन का प्रदर्शन किया जा सकता है। अप्रतिबंधित चेहरे की मान्यता के लिए ** नियंत्रणीय और निर्देशित फेस सिंथेसिस नामक शोध, आंशिक रूप से नेशनल इंटेलिजेंस के निदेशक (IARPA में ODNI) के अमेरिकी कार्यालय द्वारा आंशिक रूप से समर्थित है और इसमें MSU के कंप्यूटर विज्ञान और इंजीनियरिंग विभाग के चार शोधकर्ता शामिल हैं।

कम गुणवत्ता वाला चेहरा मान्यता: एक बढ़ता हुआ क्षेत्र

पिछले कुछ वर्षों में, कम गुणवत्ता वाले चेहरे की पहचान (LQFR) अध्ययन के एक महत्वपूर्ण क्षेत्र के रूप में उभरा है। टिकाऊ और लंबे समय तक चलने वाले कई पुराने वीडियो निगरानी प्रणाली, तकनीकी ऋण के कारण मशीन लर्निंग के लिए प्रभावी डेटा स्रोतों के रूप में सेवा करने के लिए पुरानी और संघर्ष हो गई हैं।

ऐतिहासिक और अधिक हाल के वीडियो निगरानी प्रणालियों की एक श्रृंखला में चेहरे के संकल्प के अलग -अलग स्तर। स्रोत: https://arxiv.org/pdf/1805.11519.pdf ऐतिहासिक और अधिक हाल के वीडियो निगरानी प्रणालियों की एक श्रृंखला में चेहरे के संकल्प के अलग -अलग स्तर। स्रोत: https://arxiv.org/pdf/1805.11519.pdf

एफ सौभाग्य से, प्रसार मॉडल और अन्य शोर-आधारित मॉडल इस मुद्दे को हल करने के लिए अच्छी तरह से अनुकूल हैं। नवीनतम छवि संश्लेषण प्रणालियों में से कई में उनकी प्रक्रिया के हिस्से के रूप में कम-रिज़ॉल्यूशन की छवियां शामिल हैं, जो तंत्रिका संपीड़न तकनीकों के लिए भी महत्वपूर्ण है।

चेहरे की पहचान में चुनौती कम-रिज़ॉल्यूशन छवियों से निकाले गए सबसे कम संभव विशेषताओं के साथ सटीकता को अधिकतम करना है। यह न केवल कम रिज़ॉल्यूशन पर चेहरों की पहचान करने के लिए उपयोगी है, बल्कि प्रशिक्षण मॉडल के अव्यक्त स्थान में छवि आकार की सीमाओं के कारण भी आवश्यक है।

कंप्यूटर विजन में, 'विशेषताएं' किसी भी छवि से विशिष्ट विशेषताओं को संदर्भित करती हैं, न कि केवल चेहरे। अपस्कलिंग एल्गोरिदम में उन्नति के साथ, विभिन्न तरीकों को कम-रिज़ॉल्यूशन निगरानी फुटेज को बढ़ाने के लिए प्रस्तावित किया गया है, संभवतः इसे अपराध दृश्य जांच जैसे कानूनी उद्देश्यों के लिए उपयोग करने योग्य बना दिया गया है।

हालांकि, गलत पहचान का जोखिम है, और आदर्श रूप से, चेहरे की पहचान प्रणालियों को सटीक पहचान करने के लिए उच्च-रिज़ॉल्यूशन छवियों की आवश्यकता नहीं होनी चाहिए। इस तरह के परिवर्तन महंगे हैं और उनकी वैधता और वैधता के बारे में सवाल उठाते हैं।

अधिक 'डाउन-एट-हील' सेलिब्रिटीज की आवश्यकता है

यह अधिक फायदेमंद होगा यदि चेहरे की पहचान प्रणाली छवियों को बदलने की आवश्यकता के बिना लिगेसी सिस्टम के आउटपुट से सीधे सुविधाएँ निकाल सकती है। इसके लिए उच्च-रिज़ॉल्यूशन पहचान और मौजूदा निगरानी प्रणालियों से अपमानित छवियों के बीच संबंधों की बेहतर समझ की आवश्यकता है।

समस्या मानकों में निहित है: MS-CELEB-1M और WebFace260M जैसे डेटासेट का व्यापक रूप से उपयोग किया जाता है क्योंकि वे लगातार बेंचमार्क प्रदान करते हैं। हालांकि, लेखकों का तर्क है कि इन डेटासेट पर प्रशिक्षित चेहरे की पहचान एल्गोरिदम पुराने निगरानी प्रणालियों के दृश्य डोमेन के लिए उपयुक्त नहीं हैं।

Microsoft के लोकप्रिय MS-CELEB1M डेटासेट से उदाहरण। स्रोत: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/ * Microsoft के लोकप्रिय MS-CELEB1M डेटासेट के उदाहरण।

पेपर में कहा गया है कि डोमेन शिफ्ट मुद्दों के कारण वास्तविक दुनिया की निगरानी कल्पना के साथ अत्याधुनिक चेहरे की पहचान मॉडल संघर्ष करते हैं। इन मॉडलों को अर्ध-विवश डेटासेट पर प्रशिक्षित किया जाता है, जिसमें वास्तविक दुनिया के परिदृश्यों में पाए जाने वाले बदलावों की कमी होती है, जैसे कि सेंसर शोर और मोशन ब्लर।

पिछले तरीकों ने ऐतिहासिक या कम लागत वाली निगरानी प्रणालियों के आउटपुट से मेल खाने की कोशिश की है, लेकिन ये 'अंधे' संवर्द्धन थे। इसके विपरीत, CFSM प्रशिक्षण के दौरान लक्ष्य प्रणाली से प्रत्यक्ष प्रतिक्रिया का उपयोग करता है और स्टाइल ट्रांसफर के माध्यम से उस डोमेन की नकल करता है।

अभिनेत्री नताली पोर्टमैन, कंप्यूटर विज़न समुदाय पर हावी होने वाले मुट्ठी भर डेटासेट के लिए कोई अजनबी नहीं है, जो वास्तविक लक्ष्य मॉडल के डोमेन से प्रतिक्रिया के आधार पर सीएफएसएम प्रदर्शन शैली-मिलान डोमेन अनुकूलन के इस उदाहरण में पहचान के बीच है। *अभिनेत्री नताली पोर्टमैन, कंप्यूटर विज़न समुदाय पर हावी होने वाले मुट्ठी भर डेटासेट के लिए कोई अजनबी नहीं है, सीएफएसएम प्रदर्शन करने वाले इस उदाहरण में पहचान के बीच की विशेषताएं वास्तविक लक्ष्य मॉडल के डोमेन से प्रतिक्रिया के आधार पर शैली-मिलान किए गए डोमेन अनुकूलन।*

लेखकों की वास्तुकला लक्ष्य प्रणाली के आउटपुट से शैलियों और विशेषताओं को आयात करने के लिए फास्ट ग्रेडिएंट साइन विधि (FGSM) का उपयोग करती है। जैसे -जैसे प्रशिक्षण आगे बढ़ता है, पाइपलाइन की छवि पीढ़ी का हिस्सा लक्ष्य प्रणाली के लिए अधिक वफादार हो जाता है, जिससे चेहरे की पहचान के प्रदर्शन और सामान्यीकरण क्षमताओं में सुधार होता है।

परीक्षण और परिणाम

शोधकर्ताओं ने एमएसयू के पूर्व कार्य को एक टेम्पलेट के रूप में उपयोग करते हुए सीएफएसएम का परीक्षण किया, जो एमएस-सीलबीबी -1 एम और एमएस 1 एम-वी 2 को प्रशिक्षण डेटासेट के रूप में नियुक्त करता है। टारगेट डेटा हांगकांग के चीनी विश्वविद्यालय से वाइडफेस डेटासेट था, जिसे चुनौतीपूर्ण स्थितियों में चेहरे का पता लगाने के लिए डिज़ाइन किया गया था।

सिस्टम का मूल्यांकन चार फेस रिकग्निशन बेंचमार्क के खिलाफ किया गया था: IJB-B, IJB-C, IJB-S, और Tinyface। CFSM को 1E-4 की सीखने की दर के साथ ADAM ऑप्टिमाइज़र का उपयोग करके 32 के बैच आकार में 125,000 पुनरावृत्तियों के लिए, लगभग 0.4 मिलियन छवियों के लगभग 10% MS-CELEB-1M डेटा के साथ प्रशिक्षित किया गया था।

लक्ष्य चेहरे की पहचान मॉडल ने आर्कफेस लॉस फ़ंक्शन के साथ एक संशोधित RESNET-50 का उपयोग किया। एक अतिरिक्त मॉडल को CFSM के साथ तुलना के लिए प्रशिक्षित किया गया था, जिसे परिणामों में 'आर्कफेस' के रूप में लेबल किया गया था।

CFSM के लिए प्राथमिक परीक्षणों से परिणाम। उच्च संख्या बेहतर हैं। *CFSM के लिए प्राथमिक परीक्षणों से परिणाम। उच्च संख्या बेहतर हैं।*

परिणामों से पता चला कि CFSM द्वारा बढ़ाया गया ARCFACE मॉडल, चेहरे की पहचान और सत्यापन कार्यों दोनों में सभी आधारों को बेहतर बनाता है, नए अत्याधुनिक प्रदर्शन को प्राप्त करता है।

विरासत निगरानी प्रणालियों की विभिन्न विशेषताओं से डोमेन निकालने की क्षमता भी इन प्रणालियों के बीच वितरण समानता की तुलना और मूल्यांकन करने की अनुमति देती है, प्रत्येक को एक दृश्य शैली के संदर्भ में प्रस्तुत करती है जिसे भविष्य के काम में लीवरेज किया जा सकता है।

विभिन्न डेटासेट के उदाहरण शैली में स्पष्ट अंतर प्रदर्शित करते हैं। *विभिन्न डेटासेट के उदाहरण शैली में स्पष्ट अंतर प्रदर्शित करते हैं।*

लेखकों ने यह भी उल्लेख किया कि सीएफएसएम यह दर्शाता है कि दृष्टि कार्यों में मान्यता सटीकता को बढ़ाने के लिए कैसे प्रतिकूल हेरफेर का उपयोग किया जा सकता है। उन्होंने सीखा शैली के ठिकानों के आधार पर एक डेटासेट समानता मीट्रिक पेश किया, एक लेबल या भविष्यवक्ता-अज्ञेयिक तरीके से शैली के अंतर को कैप्चर किया।

अनुसंधान अप्रतिबंधित चेहरे की पहचान के लिए नियंत्रणीय और निर्देशित चेहरे संश्लेषण मॉडल की क्षमता को रेखांकित करता है और डेटासेट अंतर में अंतर्दृष्टि प्रदान करता है।

संबंधित लेख
DeepSeek's AIs Uncover True Human Desires DeepSeek's AIs Uncover True Human Desires DeepSeek's Breakthrough in AI Reward Models: Enhancing AI Reasoning and Response Chinese AI startup DeepSeek, in collaboration with Tsinghua University, has achieved a significant milestone in AI research. Their innovative approach to AI reward models promises to revolutionize how AI systems learn
DeepCoder Achieves High Coding Efficiency with 14B Open Model DeepCoder Achieves High Coding Efficiency with 14B Open Model Introducing DeepCoder-14B: A New Frontier in Open-Source Coding ModelsThe teams at Together AI and Agentica have unveiled DeepCoder-14B, a groundbreaking coding model that stands shoulder-to-shoulder with top-tier proprietary models like OpenAI's o3-mini. This exciting development is built on the fo
Uncovering Our ‘Hidden Visits’ With Cell Phone Data and Machine Learning Uncovering Our ‘Hidden Visits’ With Cell Phone Data and Machine Learning If you've ever wondered how researchers track our movements across a country without relying solely on phone calls, a fascinating study by researchers from China and the United States offers some insight. Their collaborative work delves into the use of machine learning to uncover the 'hidden visits'
सूचना (0)
शीर्ष समाचार
AI एक अधिक कुशल यूके सार्वजनिक क्षेत्र को अनलॉक करने की कुंजी हो सकती है IPhone और iPad पर LiDAR का उपयोग करने के लिए 8 अभिनव तरीके प्रकट हुए "समूह एआई के इको प्रभाव को कम करने के लिए स्विफ्ट उपायों का आग्रह करते हैं" Google.org Unveils $15M AI Training Grants for Government Workers 7 कारण किंडल एक महान खरीद रहे हैं, यहां तक ​​कि डाउनलोड के बिना भी टेलि, एक वाईसी फिटकिरी, एआई वॉयस एजेंटों के लिए पूर्व-बीज फंडिंग सुरक्षित करता है Nvidia नेक्स्ट-जेन GPUs का अनावरण किया: ब्लैकवेल अल्ट्रा, वेरा रुबिन, फेनमैन चुपके पीक: एडोब की नवीनतम परियोजनाओं में उन्नत एआई एजेंट हैं टिंडर उपयोगकर्ता की गिरावट के बीच एआई मैचिंग की खोज करता है

अपने ऑनलाइन डेटा गोपनीयता को पुनः प्राप्त करने के लिए 5 आसान कदम - आज शुरू करें

अधिक
OR