विकल्प
घर समाचार एआई वीडियो पीढ़ी पूर्ण नियंत्रण की ओर बढ़ती है

एआई वीडियो पीढ़ी पूर्ण नियंत्रण की ओर बढ़ती है

रिलीज़ की तारीख रिलीज़ की तारीख 18 अप्रैल 2025
लेखक लेखक RyanLopez
दृश्य दृश्य 23

हुनयुआन और वान 2.1 जैसे वीडियो फाउंडेशन मॉडल ने महत्वपूर्ण प्रगति की है, लेकिन वे अक्सर कम हो जाते हैं जब यह फिल्म और टीवी उत्पादन में आवश्यक विस्तृत नियंत्रण की बात आती है, विशेष रूप से दृश्य प्रभावों (वीएफएक्स) के दायरे में। पेशेवर VFX स्टूडियो में, इन मॉडलों, पहले की छवि-आधारित मॉडल जैसे कि स्थिर प्रसार, कैंडिंस्की और फ्लक्स के साथ, विशिष्ट रचनात्मक मांगों को पूरा करने के लिए अपने आउटपुट को परिष्कृत करने के लिए डिज़ाइन किए गए उपकरणों के एक सूट के साथ संयोजन में उपयोग किया जाता है। जब कोई निर्देशक एक ट्वीक का अनुरोध करता है, तो कुछ ऐसा कह रहा है, "यह बहुत अच्छा लगता है, लेकिन क्या हम इसे थोड़ा और [n] बना सकते हैं?", यह केवल यह बताने के लिए पर्याप्त नहीं है कि मॉडल में इस तरह के समायोजन करने के लिए सटीकता का अभाव है।

इसके बजाय, एक एआई वीएफएक्स टीम वीडियो संश्लेषण की सीमाओं को और आगे बढ़ाने के लिए कस्टम-विकसित वर्कफ़्लो के साथ पारंपरिक सीजीआई और रचनात्मक तकनीकों के संयोजन को नियोजित करेगी। यह दृष्टिकोण क्रोम जैसे डिफ़ॉल्ट वेब ब्राउज़र का उपयोग करने के लिए समान है; यह बॉक्स से बाहर कार्यात्मक है, लेकिन वास्तव में इसे अपनी आवश्यकताओं के लिए दर्जी करने के लिए, आपको कुछ प्लगइन्स स्थापित करने की आवश्यकता होगी।

नियंत्रण विदाई

प्रसार-आधारित छवि संश्लेषण के क्षेत्र में, सबसे महत्वपूर्ण तृतीय-पक्ष प्रणालियों में से एक कंट्रोलनेट है। यह तकनीक जनरेटिव मॉडल के लिए संरचित नियंत्रण का परिचय देती है, जिससे उपयोगकर्ताओं को अतिरिक्त इनपुट जैसे कि एज मैप्स, डेप्थ मैप्स या पोज जानकारी का उपयोग करके छवि या वीडियो पीढ़ी का मार्गदर्शन करने की अनुमति मिलती है।

कंट्रोलनेट के विभिन्न तरीके गहराई> छवि (शीर्ष पंक्ति), सिमेंटिक विभाजन> छवि (निचले बाएं) और मनुष्यों और जानवरों की पोज़-निर्देशित छवि पीढ़ी (निचले बाएं) के लिए अनुमति देते हैं। *कंट्रोलनेट के विभिन्न तरीके गहराई के लिए अनुमति देते हैं> छवि (शीर्ष पंक्ति), सिमेंटिक विभाजन> छवि (निचले बाएं) और मनुष्यों और जानवरों की मुद्रा-निर्देशित छवि पीढ़ी (निचले बाएं)।*

ControlNet केवल पाठ संकेतों पर भरोसा नहीं करता है; यह आधार मॉडल की सामान्य क्षमताओं को बनाए रखते हुए इन कंडीशनिंग संकेतों को संसाधित करने के लिए अलग -अलग तंत्रिका नेटवर्क शाखाओं, या एडेप्टर को नियुक्त करता है। यह अत्यधिक अनुकूलित आउटपुट को सक्षम करता है जो उपयोगकर्ता विनिर्देशों के साथ निकटता से संरेखित करता है, जिससे यह संरचना, संरचना या गति पर सटीक नियंत्रण की आवश्यकता वाले अनुप्रयोगों के लिए अमूल्य हो जाता है।

एक मार्गदर्शक मुद्रा के साथ, विभिन्न प्रकार के सटीक आउटपुट प्रकार को कंट्रोलनेट के माध्यम से प्राप्त किया जा सकता है। * एक मार्गदर्शक मुद्रा के साथ, विभिन्न प्रकार के सटीक आउटपुट प्रकार को कंट्रोलनेट के माध्यम से प्राप्त किया जा सकता है।* स्रोत: https://arxiv.org/pdf/2302.05543

हालांकि, ये एडाप्टर-आधारित सिस्टम, जो आंतरिक रूप से केंद्रित तंत्रिका प्रक्रियाओं के एक सेट पर बाहरी रूप से काम करते हैं, कई कमियों के साथ आते हैं। एडेप्टर को स्वतंत्र रूप से प्रशिक्षित किया जाता है, जिससे कई एडेप्टर संयुक्त होने पर शाखा संघर्षों को जन्म दे सकते हैं, जिसके परिणामस्वरूप अक्सर कम गुणवत्ता वाली पीढ़ियां होती हैं। वे पैरामीटर अतिरेक भी पेश करते हैं, प्रत्येक एडाप्टर के लिए अतिरिक्त कम्प्यूटेशनल संसाधनों और मेमोरी की आवश्यकता होती है, जिससे स्केलिंग अक्षम हो जाती है। इसके अलावा, उनके लचीलेपन के बावजूद, एडेप्टर अक्सर बहु-स्थिति पीढ़ी के लिए पूरी तरह से ठीक-ठाक मॉडल की तुलना में उप-इष्टतम परिणाम प्राप्त करते हैं। ये मुद्दे उन कार्यों के लिए एडाप्टर-आधारित विधियों को कम प्रभावी बना सकते हैं जिनके लिए कई नियंत्रण संकेतों के सहज एकीकरण की आवश्यकता होती है।

आदर्श रूप से, कंट्रोलनेट की क्षमताओं को एक मॉड्यूलर फैशन में मॉडल में मूल रूप से एकीकृत किया जाएगा, जो भविष्य के नवाचारों जैसे एक साथ वीडियो/ऑडियो पीढ़ी या देशी लिप-सिंक क्षमताओं जैसे भविष्य के नवाचारों की अनुमति देता है। वर्तमान में, प्रत्येक अतिरिक्त सुविधा या तो एक पोस्ट-प्रोडक्शन कार्य या एक गैर-देशी प्रक्रिया बन जाती है जिसे फाउंडेशन मॉडल के संवेदनशील भार को नेविगेट करना होगा।

फुलडिट

फुलडिट दर्ज करें, चीन से एक नया दृष्टिकोण जो नियंत्रण-शैली की सुविधाओं को सीधे प्रशिक्षण के दौरान एक जनरेटिव वीडियो मॉडल में एकीकृत करता है, बजाय इसके कि उन्हें एक बाद में इलाज किया जाए।

नए पेपर से: फुलडिट दृष्टिकोण पहचान लागू करने, गहराई और कैमरा आंदोलन को एक देशी पीढ़ी में शामिल कर सकता है, और एक ही बार में इनमें से किसी भी संयोजन को समन कर सकता है। * नए पेपर से: फुलडिट दृष्टिकोण एक देशी पीढ़ी में पहचान लागू करने, गहराई और कैमरा आंदोलन को शामिल कर सकता है, और इनमें से किसी भी संयोजन को एक बार में बुला सकता है।* स्रोत: https://arxiv.org/pdf/2503.19907

फुलडिट, जैसा कि पेपर में उल्लिखित है, जिसका शीर्षक है ** फुलडिट: मल्टी-टास्क वीडियो जनरेटिव फाउंडेशन मॉडल पूर्ण ध्यान के साथ **, एक प्रशिक्षित जनरेटिव वीडियो मॉडल के मूल में पहचान हस्तांतरण, गहराई-मानचित्रण और कैमरा आंदोलन जैसी मल्टी-टास्क स्थितियों को एकीकृत करता है। लेखकों ने एक प्रोटोटाइप मॉडल विकसित किया है और एक परियोजना साइट पर उपलब्ध वीडियो क्लिप के साथ।

**चलाने के लिए क्लिक करें। केवल एक देशी प्रशिक्षित फाउंडेशन मॉडल के साथ कंट्रोल-स्टाइल उपयोगकर्ता के प्रभाव के उदाहरण। ** स्रोत: https://fulldit.github.io/

लेखक फुलडिट को देशी टेक्स्ट-टू-वीडियो (T2V) और इमेज-टू-वीडियो (I2V) मॉडल के लिए एक प्रूफ-ऑफ-कॉन्सेप्ट के रूप में प्रस्तुत करते हैं जो उपयोगकर्ताओं को केवल एक छवि या पाठ प्रॉम्प्ट की तुलना में अधिक नियंत्रण प्रदान करते हैं। चूंकि कोई समान मॉडल मौजूद नहीं है, इसलिए शोधकर्ताओं ने बहु-कार्य वीडियो का मूल्यांकन करने के लिए ** फुलबेंच ** नामक एक नया बेंचमार्क बनाया, जो उनके तैयार किए गए परीक्षणों में अत्याधुनिक प्रदर्शन का दावा करता है। हालांकि, फुलबेंच की निष्पक्षता, लेखकों द्वारा खुद को डिज़ाइन किया गया है, यह अप्रयुक्त है, और 1,400 मामलों का इसका डेटासेट व्यापक निष्कर्षों के लिए बहुत सीमित हो सकता है।

फुलडिट की वास्तुकला का सबसे पेचीदा पहलू नए प्रकार के नियंत्रण को शामिल करने की इसकी क्षमता है। लेखक नोट:

** 'इस काम में, हम केवल कैमरे, पहचान और गहराई की जानकारी की नियंत्रण स्थितियों का पता लगाते हैं। हमने अन्य स्थितियों और तौर-तरीकों जैसे कि ऑडियो, स्पीच, पॉइंट क्लाउड, ऑब्जेक्ट बाउंडिंग बॉक्स, ऑप्टिकल फ्लो, आदि की जांच नहीं की है, हालांकि फुलडिट का डिज़ाइन कम से कम आर्किटेक्चर संशोधन के साथ अन्य तौर-तरीकों को एकीकृत कर सकता है, कैसे जल्दी और लागत-प्रभावी रूप से मौजूदा मॉडल को नई परिस्थितियों और तौर-तरीकों के लिए अनुकूलित करें, अभी भी एक महत्वपूर्ण सवाल है जो आगे की खोज करता है। '

जबकि फुलडिट मल्टी-टास्क वीडियो पीढ़ी में एक कदम आगे का प्रतिनिधित्व करता है, यह एक नए प्रतिमान को पेश करने के बजाय मौजूदा आर्किटेक्चर पर बनाता है। बहरहाल, यह मूल रूप से एकीकृत कंट्रोल-शैली की विशेषताओं के साथ एकमात्र वीडियो फाउंडेशन मॉडल के रूप में खड़ा है, और इसकी वास्तुकला को भविष्य के नवाचारों को समायोजित करने के लिए डिज़ाइन किया गया है।

**चलाने के लिए क्लिक करें। परियोजना साइट से उपयोगकर्ता-नियंत्रित कैमरा चाल के उदाहरण। **

कुआशौ टेक्नोलॉजी और हांगकांग के चीनी विश्वविद्यालय के नौ शोधकर्ताओं द्वारा लिखित पेपर का शीर्षक है ** फुलडिट: मल्टी-टास्क वीडियो जेनरल फाउंडेशन मॉडल पूर्ण ध्यान के साथ **। प्रोजेक्ट पेज और नए बेंचमार्क डेटा हगिंग फेस पर उपलब्ध हैं।

तरीका

फुलडिट के एकीकृत ध्यान तंत्र को स्थितियों में स्थानिक और लौकिक संबंधों दोनों को कैप्चर करके क्रॉस-मोडल प्रतिनिधित्व सीखने को बढ़ाने के लिए डिज़ाइन किया गया है।

नए पेपर के अनुसार, फुलडिट पूर्ण आत्म-ध्यान के माध्यम से कई इनपुट स्थितियों को एकीकृत करता है, उन्हें एक एकीकृत अनुक्रम में परिवर्तित करता है। इसके विपरीत, एडाप्टर-आधारित मॉडल (बाएं-सबसे अधिक) प्रत्येक इनपुट के लिए अलग-अलग मॉड्यूल का उपयोग करते हैं, जिससे अतिरेक, संघर्ष और कमजोर प्रदर्शन होता है। *नए पेपर के अनुसार, फुलडिट पूर्ण आत्म-ध्यान के माध्यम से कई इनपुट स्थितियों को एकीकृत करता है, उन्हें एक एकीकृत अनुक्रम में परिवर्तित करता है। इसके विपरीत, एडाप्टर-आधारित मॉडल (ऊपर बाएं) प्रत्येक इनपुट के लिए अलग-अलग मॉड्यूल का उपयोग करते हैं, जिससे अतिरेक, संघर्ष और कमजोर प्रदर्शन होता है।*

एडाप्टर-आधारित सेटअप के विपरीत जो प्रत्येक इनपुट स्ट्रीम को अलग से संसाधित करते हैं, फुलडिट की साझा ध्यान संरचना शाखा संघर्षों से बचती है और पैरामीटर ओवरहेड को कम करती है। लेखकों का दावा है कि आर्किटेक्चर प्रमुख रीडिज़ाइन के बिना नए इनपुट प्रकारों को स्केल कर सकता है और यह कि मॉडल स्कीमा प्रशिक्षण के दौरान नहीं देखे गए कंडीशन संयोजनों के सामान्यीकरण के संकेत दिखाता है, जैसे कि चरित्र पहचान के साथ कैमरा मोशन को जोड़ना।

**चलाने के लिए क्लिक करें। परियोजना स्थल से पहचान उत्पादन के उदाहरण **।

फुलडिट की आर्किटेक्चर में, सभी कंडीशनिंग इनपुट- जैसे कि टेक्स्ट, कैमरा मोशन, आइडेंटिटी और डेप्थ- को पहले एक यूनिफाइड टोकन फॉर्मेट में बदल दिया जाता है। इन टोकन को तब एक एकल लंबे अनुक्रम में समेट दिया जाता है, जो पूर्ण आत्म-ध्यान का उपयोग करके ट्रांसफार्मर परतों के ढेर के माध्यम से संसाधित किया जाता है। यह दृष्टिकोण ओपन-सोरा प्लान और मूवी जनरल जैसे पूर्व कार्यों का अनुसरण करता है।

यह डिज़ाइन मॉडल को सभी स्थितियों में संयुक्त रूप से अस्थायी और स्थानिक संबंधों को सीखने की अनुमति देता है। प्रत्येक ट्रांसफार्मर ब्लॉक पूरे अनुक्रम पर संचालित होता है, प्रत्येक इनपुट के लिए अलग -अलग मॉड्यूल पर भरोसा किए बिना तौर -तरीकों के बीच गतिशील इंटरैक्शन को सक्षम करता है। वास्तुकला को एक्स्टेंसिबल होने के लिए डिज़ाइन किया गया है, जिससे भविष्य में प्रमुख संरचनात्मक परिवर्तनों के बिना अतिरिक्त नियंत्रण संकेतों को शामिल करना आसान हो जाता है।

तीन की शक्ति

फुलडिट प्रत्येक नियंत्रण सिग्नल को एक मानकीकृत टोकन प्रारूप में परिवर्तित करता है ताकि सभी स्थितियों को एकीकृत ध्यान फ्रेमवर्क में एक साथ संसाधित किया जा सके। कैमरा गति के लिए, मॉडल बाहरी मापदंडों के एक अनुक्रम को एन्कोड करता है - जैसे कि स्थिति और अभिविन्यास - प्रत्येक फ्रेम के लिए। इन मापदंडों को टाइमस्टैम्प किया जाता है और एम्बेडिंग वैक्टर में अनुमानित किया जाता है जो सिग्नल की अस्थायी प्रकृति को दर्शाते हैं।

पहचान की जानकारी को अलग तरह से व्यवहार किया जाता है, क्योंकि यह अस्थायी के बजाय स्वाभाविक रूप से स्थानिक है। मॉडल पहचान मानचित्रों का उपयोग करता है जो इंगित करता है कि कौन से वर्ण मौजूद हैं, प्रत्येक फ्रेम के कौन से हिस्से हैं। इन नक्शों को पैच में विभाजित किया जाता है, प्रत्येक पैच के साथ एक एम्बेडिंग में अनुमानित किया जाता है जो स्थानिक पहचान के संकेतों को कैप्चर करता है, जिससे मॉडल को विशिष्ट संस्थाओं के साथ फ्रेम के विशिष्ट क्षेत्रों को जोड़ने की अनुमति मिलती है।

गहराई एक स्पैटियोटेम्पोरल सिग्नल है, और मॉडल इसे 3 डी पैच में गहराई से वीडियो को विभाजित करके संभालता है जो अंतरिक्ष और समय दोनों को फैलाता है। ये पैच तब एक तरह से एम्बेडेड होते हैं जो फ्रेम में उनकी संरचना को संरक्षित करता है।

एक बार एम्बेडेड होने के बाद, इन सभी स्थिति टोकन (कैमरा, पहचान और गहराई) को एक एकल लंबे अनुक्रम में समेट दिया जाता है, जिससे फुलडिट को पूर्ण आत्म-ध्यान का उपयोग करके उन्हें एक साथ संसाधित करने की अनुमति मिलती है। यह साझा प्रतिनिधित्व मॉडल को अलग -अलग प्रसंस्करण धाराओं पर भरोसा किए बिना तौर -तरीकों और समय के साथ बातचीत सीखने में सक्षम बनाता है।

डेटा और परीक्षण

फुलडिट का प्रशिक्षण दृष्टिकोण प्रत्येक कंडीशनिंग प्रकार के अनुरूप चुनिंदा एनोटेट डेटासेट पर निर्भर करता है, बजाय इसके कि सभी शर्तों को एक साथ उपस्थित होने की आवश्यकता होती है।

पाठ्य स्थितियों के लिए, पहल मिरदाता परियोजना में उल्लिखित संरचित कैप्शनिंग दृष्टिकोण का अनुसरण करती है।

Miradata परियोजना से वीडियो संग्रह और एनोटेशन पाइपलाइन। * मिरदाटा प्रोजेक्ट से वीडियो संग्रह और एनोटेशन पाइपलाइन।* स्रोत: https://arxiv.org/pdf/2407.06358

कैमरा गति के लिए, Realestate10K डेटासेट मुख्य डेटा स्रोत था, जो कैमरा मापदंडों के उच्च गुणवत्ता वाले ग्राउंड-ट्रुथ एनोटेशन के कारण था। हालांकि, लेखकों ने देखा कि विशेष रूप से स्टेटिक-स्केन कैमरा डेटासेट पर प्रशिक्षण जैसे कि Realestate10k ने उत्पन्न वीडियो में गतिशील वस्तु और मानव आंदोलनों को कम करने के लिए प्रवृत्त किया। इसका मुकाबला करने के लिए, उन्होंने आंतरिक डेटासेट का उपयोग करके अतिरिक्त फाइन-ट्यूनिंग का संचालन किया जिसमें अधिक गतिशील कैमरा गति शामिल थी।

कॉन्सेप्टमास्टर प्रोजेक्ट के लिए विकसित पाइपलाइन का उपयोग करके पहचान एनोटेशन उत्पन्न किए गए थे, जिसने कुशल फ़िल्टरिंग और बारीक-दाने वाली पहचान की जानकारी को निष्कर्षण की अनुमति दी थी।

कॉन्सेप्टमास्टर फ्रेमवर्क को अनुकूलित वीडियो में कॉन्सेप्ट फिडेलिटी को संरक्षित करते हुए आइडेंटिटी डिक्लिंग मुद्दों को संबोधित करने के लिए डिज़ाइन किया गया है। * कॉन्सेप्टमास्टर फ्रेमवर्क को अनुकूलित वीडियो में कॉन्सेप्ट फिडेलिटी को संरक्षित करते हुए पहचान डिक्लिंग मुद्दों को संबोधित करने के लिए डिज़ाइन किया गया है।* स्रोत: https://arxiv.org/pdf/2501.04698

गहराई के एनोटेशन को पांडा -70M डेटासेट से गहराई से किसी भी चीज़ का उपयोग करके प्राप्त किया गया था।

डेटा-आदेश के माध्यम से अनुकूलन

लेखकों ने एक प्रगतिशील प्रशिक्षण अनुसूची भी लागू की, जो कि सरल कार्यों को जोड़ने से पहले मॉडल को मजबूत अभ्यावेदन सुनिश्चित करने के लिए प्रशिक्षण में पहले से अधिक चुनौतीपूर्ण परिस्थितियों का परिचय दे रहा था। प्रशिक्षण आदेश पाठ से कैमरे की शर्तों, फिर पहचान, और अंत में गहराई तक आगे बढ़ा, आमतौर पर बाद में और कम उदाहरणों के साथ आसान कार्यों के साथ।

लेखक इस तरह से कार्यभार के आदेश पर जोर देते हैं:

** 'प्री-ट्रेनिंग चरण के दौरान, हमने नोट किया कि अधिक चुनौतीपूर्ण कार्य विस्तारित प्रशिक्षण समय की मांग करते हैं और इसे सीखने की प्रक्रिया में पहले पेश किया जाना चाहिए। इन चुनौतीपूर्ण कार्यों में जटिल डेटा वितरण शामिल होते हैं जो आउटपुट वीडियो से काफी भिन्न होते हैं, जिससे मॉडल को सटीक रूप से पकड़ने और उनका प्रतिनिधित्व करने के लिए पर्याप्त क्षमता रखने की आवश्यकता होती है। **

** 'इसके विपरीत, आसान कार्यों को शुरू करने से पहले मॉडल को पहले सीखने को प्राथमिकता देने के लिए मॉडल का नेतृत्व किया जा सकता है, क्योंकि वे अधिक तत्काल अनुकूलन प्रतिक्रिया प्रदान करते हैं, जो अधिक चुनौतीपूर्ण कार्यों के अभिसरण में बाधा डालते हैं।'

शोधकर्ताओं द्वारा अपनाया गया डेटा प्रशिक्षण आदेश का एक चित्रण, जिसमें लाल अधिक से अधिक डेटा वॉल्यूम का संकेत देता है। *शोधकर्ताओं द्वारा अपनाए गए डेटा प्रशिक्षण आदेश का एक चित्रण, जिसमें लाल अधिक डेटा मात्रा का संकेत देता है।*

प्रारंभिक पूर्व-प्रशिक्षण के बाद, एक अंतिम फाइन-ट्यूनिंग चरण ने दृश्य गुणवत्ता और गति की गतिशीलता में सुधार के लिए मॉडल को परिष्कृत किया। तत्पश्चात, प्रशिक्षण ने एक मानक प्रसार ढांचे का पालन किया: शोर ने वीडियो लैटेंट्स में जोड़ा, और मॉडल को भविष्यवाणी करने और हटाने के लिए सीखना, एम्बेडेड कंडीशन टोकन को मार्गदर्शन के रूप में उपयोग करके।

फुलडिट का प्रभावी ढंग से मूल्यांकन करने और मौजूदा तरीकों के खिलाफ उचित तुलना प्रदान करने के लिए, और किसी भी अन्य एपोसाइट बेंचमार्क की अनुपस्थिति में, लेखकों ने ** फुलबेंच **, एक क्यूरेटेड बेंचमार्क सूट की शुरुआत की, जिसमें 1,400 अलग -अलग परीक्षण मामलों शामिल हैं।

नए फुलबेंच बेंचमार्क के लिए एक डेटा एक्सप्लोरर उदाहरण। * नए फुलबेंच बेंचमार्क के लिए एक डेटा एक्सप्लोरर इंस्टेंस।* स्रोत: https://huggingface.co/datasets/kwaivgi/fullbench

प्रत्येक डेटा बिंदु ने विभिन्न कंडीशनिंग संकेतों के लिए ग्राउंड ट्रुथ एनोटेशन प्रदान किए, जिसमें कैमरा मोशन, पहचान और गहराई शामिल है।

मेट्रिक्स

लेखकों ने प्रदर्शन के पांच मुख्य पहलुओं को कवर करने वाले दस मेट्रिक्स का उपयोग करके फुलडिट का मूल्यांकन किया: पाठ संरेखण, कैमरा नियंत्रण, पहचान समानता, गहराई सटीकता और सामान्य वीडियो गुणवत्ता।

CLIP समानता का उपयोग करके पाठ संरेखण को मापा गया था, जबकि कैमरा कंट्रोल का मूल्यांकन रोटेशन त्रुटि (ROTERR), अनुवाद त्रुटि (ट्रांसर), और कैमरा मोशन कंसिस्टेंसी (CAMMC) के माध्यम से CAMI2V (Cameractrl प्रोजेक्ट में) के दृष्टिकोण के बाद किया गया था।

DINO-I और CLIP-I का उपयोग करके पहचान समानता का मूल्यांकन किया गया था, और गहराई नियंत्रण सटीकता का उपयोग निरपेक्ष त्रुटि (MAE) का उपयोग करके निर्धारित किया गया था।

वीडियो की गुणवत्ता को मिरदाता से तीन मेट्रिक्स के साथ आंका गया था: चिकनाई के लिए फ्रेम-स्तरीय क्लिप समानता; गतिशीलता के लिए ऑप्टिकल प्रवाह-आधारित गति दूरी; और दृश्य अपील के लिए Laion-Aesthetic स्कोर।

प्रशिक्षण

लेखकों ने एक आंतरिक (अज्ञात) पाठ-से-वीडियो प्रसार मॉडल का उपयोग करके फुलडिट को प्रशिक्षित किया जिसमें लगभग एक बिलियन पैरामीटर युक्त थे। उन्होंने जानबूझकर पूर्व तरीकों के साथ तुलना में निष्पक्षता बनाए रखने के लिए एक मामूली पैरामीटर आकार चुना और प्रतिलिपि प्रस्तुत करने योग्यता सुनिश्चित की।

चूंकि प्रशिक्षण वीडियो लंबाई और संकल्प में भिन्न थे, इसलिए लेखकों ने प्रत्येक बैच को एक सामान्य रिज़ॉल्यूशन के लिए वीडियो को आकार देने और पैडिंग करके मानकीकृत किया, प्रति अनुक्रम 77 फ्रेम का नमूना, और प्रशिक्षण प्रभावशीलता को अनुकूलित करने के लिए लागू ध्यान और हानि मास्क का उपयोग किया।

एडम ऑप्टिमाइज़र का उपयोग 64 NVIDIA H800 GPU के एक क्लस्टर में 1 × 10, 5 की सीखने की दर पर किया गया था, कुल 5,120GB VRAM के लिए (विचार करें कि उत्साही संश्लेषण समुदायों में, RTX 3090 पर 24GB अभी भी एक शानदार मानक माना जाता है)।

मॉडल को लगभग 32,000 चरणों के लिए प्रशिक्षित किया गया था, जिसमें प्रति वीडियो तीन पहचान शामिल हैं, साथ ही कैमरे की स्थिति के 20 फ्रेम और गहराई की स्थिति के 21 फ्रेम, दोनों कुल 77 फ्रेम से समान रूप से नमूना लिया गया था।

अनुमान के लिए, मॉडल ने 50 डिफ्यूजन इंट्रेंस स्टेप्स के साथ 384 × 672 पिक्सेल (लगभग पांच सेकंड प्रति सेकंड में लगभग पांच सेकंड) के संकल्प पर वीडियो उत्पन्न किए और पांच के क्लासिफायर-फ्री गाइडेंस स्केल के साथ।

पूर्व -विधियाँ

कैमरा-टू-वीडियो मूल्यांकन के लिए, लेखकों ने गति और निष्पक्षता सुनिश्चित करने के लिए realestate10k डेटासेट का उपयोग करके प्रशिक्षित सभी मॉडलों के साथ मोशनसीटीआरएल, कैमरेकट्रल और केमि 2 वी के खिलाफ फुलडिट की तुलना की।

पहचान-स्थिति वाली पीढ़ी में, चूंकि कोई तुलनीय ओपन-सोर्स मल्टी-आइडेंटिटी मॉडल उपलब्ध नहीं थे, इसलिए मॉडल को 1B-पैरामीटर कॉन्सेप्टमास्टर मॉडल के खिलाफ एक ही प्रशिक्षण डेटा और आर्किटेक्चर का उपयोग करके बेंचमार्क किया गया था।

गहराई-से-वीडियो कार्यों के लिए, CTRL-Adapter और ControlVideo के साथ तुलना की गई थी।

एकल-कार्य वीडियो पीढ़ी के लिए मात्रात्मक परिणाम। FullDit की तुलना कैमरा-टू-वीडियो पीढ़ी के लिए MotionCtrl, Cameractrl, और CaMI2V से की गई थी; आइडेंटिटी-टू-वीडियो के लिए कॉन्सेप्टमास्टर (1 बी पैरामीटर संस्करण); और गहराई-से-वीडियो के लिए Ctrl-Adapter और Controlvideo। सभी मॉडलों का मूल्यांकन उनकी डिफ़ॉल्ट सेटिंग्स का उपयोग करके किया गया था। स्थिरता के लिए, 16 फ्रेम को प्रत्येक विधि से समान रूप से नमूना लिया गया था, जो पूर्व मॉडल की आउटपुट लंबाई से मेल खाता था। *एकल-कार्य वीडियो पीढ़ी के लिए मात्रात्मक परिणाम। FullDit की तुलना कैमरा-टू-वीडियो पीढ़ी के लिए MotionCtrl, Cameractrl, और CaMI2V से की गई थी; आइडेंटिटी-टू-वीडियो के लिए कॉन्सेप्टमास्टर (1 बी पैरामीटर संस्करण); और गहराई-से-वीडियो के लिए Ctrl-Adapter और Controlvideo। सभी मॉडलों का मूल्यांकन उनकी डिफ़ॉल्ट सेटिंग्स का उपयोग करके किया गया था। स्थिरता के लिए, 16 फ्रेम को प्रत्येक विधि से समान रूप से नमूना लिया गया था, जो पूर्व मॉडल की आउटपुट लंबाई से मेल खाता है।*

परिणामों से संकेत मिलता है कि फुलडिट, एक साथ कई कंडीशनिंग संकेतों को संभालने के बावजूद, पाठ, कैमरा गति, पहचान और गहराई नियंत्रण से संबंधित मैट्रिक्स में अत्याधुनिक प्रदर्शन हासिल किया।

समग्र गुणवत्ता वाले मेट्रिक्स में, सिस्टम ने आम तौर पर अन्य तरीकों से बेहतर प्रदर्शन किया, हालांकि इसकी चिकनाई कॉन्सेप्टमास्टर की तुलना में थोड़ी कम थी। यहाँ लेखक टिप्पणी करते हैं:

** 'फुलडिट की चिकनाई कॉन्सेप्टमास्टर की तुलना में थोड़ी कम है क्योंकि चिकनाई की गणना आसन्न फ्रेम के बीच क्लिप समानता पर आधारित है। जैसा कि फुलडिट कॉन्सेप्टमास्टर की तुलना में काफी अधिक गतिशीलता प्रदर्शित करता है, चिकनाई मीट्रिक आसन्न फ्रेम के बीच बड़ी विविधताओं से प्रभावित होता है। **

** 'सौंदर्यवादी स्कोर के लिए, चूंकि रेटिंग मॉडल पेंटिंग शैली में छवियों का पक्षधर है और कंट्रोलवाइडो आमतौर पर इस शैली में वीडियो उत्पन्न करता है, यह सौंदर्यशास्त्र में एक उच्च स्कोर प्राप्त करता है।'

गुणात्मक तुलना के बारे में, फुलडिट प्रोजेक्ट साइट पर नमूना वीडियो को संदर्भित करना बेहतर हो सकता है, क्योंकि पीडीएफ उदाहरण अनिवार्य रूप से स्थिर हैं (और यहां पूरी तरह से यहां पुन: पेश करने के लिए बहुत बड़े हैं)।

पीडीएफ में पुन: पेश किए गए गुणात्मक परिणामों का पहला खंड। कृपया अतिरिक्त उदाहरणों के लिए स्रोत पेपर देखें, जो यहां प्रजनन करने के लिए बहुत व्यापक हैं। *पीडीएफ में गुणात्मक परिणामों का पहला खंड। कृपया अतिरिक्त उदाहरणों के लिए स्रोत पेपर देखें, जो यहां प्रजनन करने के लिए बहुत व्यापक हैं।*

लेखक टिप्पणी:

** 'फुलडिट बेहतर पहचान संरक्षण को प्रदर्शित करता है और [कॉन्सेप्टमास्टर] की तुलना में बेहतर गतिशीलता और दृश्य गुणवत्ता के साथ वीडियो उत्पन्न करता है। चूंकि कॉन्सेप्टमास्टर और फुलडिट को एक ही बैकबोन पर प्रशिक्षित किया जाता है, इसलिए यह पूर्ण ध्यान के साथ स्थिति इंजेक्शन की प्रभावशीलता पर प्रकाश डालता है। **

** '... [अन्य] परिणाम मौजूदा गहराई-से-वीडियो और कैमरा-टू-वीडियो विधियों की तुलना में फुलडिट की बेहतर नियंत्रणीयता और पीढ़ी की गुणवत्ता को प्रदर्शित करते हैं।' **

कई संकेतों के साथ फुलडिट के आउटपुट के पीडीएफ के उदाहरणों का एक खंड। कृपया अतिरिक्त उदाहरणों के लिए स्रोत पेपर और प्रोजेक्ट साइट देखें। *कई संकेतों के साथ फुलडिट के आउटपुट के पीडीएफ के उदाहरणों का एक खंड। कृपया अतिरिक्त उदाहरणों के लिए स्रोत पेपर और प्रोजेक्ट साइट देखें।*

निष्कर्ष

फुलडिट एक अधिक व्यापक वीडियो फाउंडेशन मॉडल की ओर एक रोमांचक कदम का प्रतिनिधित्व करता है, लेकिन यह सवाल यह है कि क्या कंट्रोल-स्टाइल सुविधाओं की मांग उनके कार्यान्वयन को पैमाने पर, विशेष रूप से ओपन-सोर्स परियोजनाओं के लिए सही ठहराता है। ये परियोजनाएं वाणिज्यिक समर्थन के बिना आवश्यक विशाल GPU प्रसंस्करण शक्ति प्राप्त करने के लिए संघर्ष करेंगी।

प्राथमिक चुनौती यह है कि गहराई और मुद्रा जैसी प्रणालियों का उपयोग करते हुए आम तौर पर कॉम्फ्यूई जैसे जटिल उपयोगकर्ता इंटरफेस के साथ एक गैर-तुच्छ परिचितता की आवश्यकता होती है। इसलिए, इस तरह का एक कार्यात्मक ओपन-सोर्स मॉडल छोटी वीएफएक्स कंपनियों द्वारा विकसित किए जाने की सबसे अधिक संभावना है जिसमें इस तरह के मॉडल को निजी तौर पर क्यूरेट करने और प्रशिक्षित करने के लिए संसाधनों या प्रेरणा की कमी होती है।

दूसरी ओर, एपीआई-चालित 'रेंट-ए-ए-एई' सिस्टम को सीधे प्रशिक्षित सहायक नियंत्रण प्रणालियों के साथ मॉडल के लिए सरल और अधिक उपयोगकर्ता के अनुकूल व्याख्यात्मक तरीके विकसित करने के लिए अच्छी तरह से प्रेरित किया जा सकता है।

**चलाने के लिए क्लिक करें। गहराई+पाठ नियंत्रण एक वीडियो पीढ़ी पर लगाए गए फुलडिट का उपयोग करके। **

*लेखक किसी भी ज्ञात आधार मॉडल (यानी, sdxl, आदि) को निर्दिष्ट नहीं करते हैं।

** पहली बार गुरुवार, 27 मार्च, 2025 ** प्रकाशित किया गया

संबंधित लेख
Unveiling Subtle Yet Impactful AI Modifications in Authentic Video Content Unveiling Subtle Yet Impactful AI Modifications in Authentic Video Content In 2019, a deceptive video of Nancy Pelosi, then Speaker of the US House of Representatives, circulated widely. The video, which was edited to make her appear intoxicated, was a stark reminder of how easily manipulated media can mislead the public. Despite its simplicity, this incident highlighted t
OpenAI plans to bring Sora’s video generator to ChatGPT OpenAI plans to bring Sora’s video generator to ChatGPT OpenAI plans to integrate its AI video generation tool, Sora, into its popular consumer chatbot, ChatGPT. This was revealed by company leaders during a recent office hours session on Discord. Currently, Sora is accessible only through a dedicated web app launched by OpenAI in December, allowing user
ByteDance Joins Deepfake AI Video Market ByteDance Joins Deepfake AI Video Market ByteDance, the folks behind TikTok, have just shown off their latest AI creation, OmniHuman-1, and it's pretty mind-blowing. This new system can whip up super realistic videos, and all it needs is just a single reference image and some audio. What's cool is you can tweak the video's aspect ratio and
सूचना (0)
शीर्ष समाचार
यूएस डेटा सेंटर के लिए ट्वीक्स 76 GW नई बिजली क्षमता को अनलॉक कर सकते हैं नोटबुकल्म वेब स्रोत खोज सुविधा जोड़ता है वाइल्डफायर डिटेक्शन में एक सफलता: कैसे उपग्रहों का एक नया नक्षत्र पहले छोटे जंगल की आग का पता लगा सकता है कंबियम का एआई कचरे की लकड़ी को लकड़ी में बदल देता है एआई कंप्यूटिंग 2026 तक कई एनवाईसीएस की शक्ति का उपभोग करने के लिए, संस्थापक कहते हैं एनवीडिया के सीईओ ने दीपसेक के बाजार प्रभाव पर गलतफहमी को स्पष्ट किया Openai की AI ने paywalled O'Reilly पुस्तकों पर प्रशिक्षित किया, शोधकर्ताओं का दावा है AI एक अधिक कुशल यूके सार्वजनिक क्षेत्र को अनलॉक करने की कुंजी हो सकती है Google.org ने सरकारी कर्मचारियों के लिए $ 15M AI प्रशिक्षण अनुदान का अनावरण किया डीप कॉगिटो के एलएलएम आईडीए का उपयोग करते हुए समान आकार के मॉडल को बेहतर बनाते हैं
अधिक
शीर्ष पर वापस
OR