AI बढ़ाया वीडियो आलोचनाओं को वितरित करना सीखता है
एआई अनुसंधान में वीडियो सामग्री के मूल्यांकन की चुनौती
जब कंप्यूटर विजन साहित्य की दुनिया में गोताखोरी होती है, तो बड़े विजन-भाषा मॉडल (LVLMS) जटिल सबमिशन की व्याख्या करने के लिए अमूल्य हो सकते हैं। हालांकि, वे एक महत्वपूर्ण सड़क पर मारा, जब वैज्ञानिक कागजात के साथ वीडियो उदाहरणों की गुणवत्ता और गुणों का आकलन करने की बात आती है। यह एक महत्वपूर्ण पहलू है क्योंकि सम्मोहक दृश्य केवल उतने ही महत्वपूर्ण हैं जितना कि उत्साह पैदा करने और अनुसंधान परियोजनाओं में किए गए दावों को मान्य करने में पाठ।
वीडियो संश्लेषण परियोजनाएं, विशेष रूप से, खारिज किए जाने से बचने के लिए वास्तविक वीडियो आउटपुट का प्रदर्शन करने पर बहुत अधिक भरोसा करती हैं। यह इन प्रदर्शनों में है जहां किसी परियोजना के वास्तविक दुनिया के प्रदर्शन का वास्तव में मूल्यांकन किया जा सकता है, अक्सर परियोजना के बोल्ड दावों और इसकी वास्तविक क्षमताओं के बीच अंतर को प्रकट करता है।
मैंने किताब पढ़ी, फिल्म नहीं देखी
वर्तमान में, लोकप्रिय एपीआई-आधारित बड़े भाषा मॉडल (एलएलएम) और बड़े दृष्टि-भाषा मॉडल (एलवीएलएम) सीधे वीडियो सामग्री का विश्लेषण करने के लिए सुसज्जित नहीं हैं। उनकी क्षमताएं वीडियो से संबंधित टेप और अन्य पाठ-आधारित सामग्रियों का विश्लेषण करने तक सीमित हैं। यह सीमा तब स्पष्ट होती है जब इन मॉडलों को सीधे वीडियो सामग्री का विश्लेषण करने के लिए कहा जाता है।
*GPT-4O, Google Gemini और Perplexity की विविध आपत्तियां, जब सीधे वीडियो का विश्लेषण करने के लिए कहा जाता है, तो टेप या अन्य पाठ-आधारित स्रोतों के लिए सहारा के बिना।**
कुछ मॉडल, जैसे कि CHATGPT-4O, एक वीडियो के व्यक्तिपरक मूल्यांकन प्रदान करने का भी प्रयास कर सकते हैं, लेकिन अंततः दबाए जाने पर वीडियो देखने में उनकी अक्षमता को स्वीकार करेंगे।
*एक नए शोध पत्र के संबद्ध वीडियो का एक व्यक्तिपरक मूल्यांकन प्रदान करने के लिए कहा गया है, और एक वास्तविक राय फेकने के बाद, CHATGPT-4O अंततः स्वीकार करता है कि यह वास्तव में सीधे वीडियो नहीं देख सकता है।*
यद्यपि ये मॉडल मल्टीमॉडल हैं और व्यक्तिगत तस्वीरों का विश्लेषण कर सकते हैं, जैसे कि एक वीडियो से निकाले गए फ्रेम, गुणात्मक राय प्रदान करने की उनकी क्षमता संदिग्ध है। LLMS अक्सर ईमानदार आलोचकों के बजाय 'लोगों को प्रसन्न करने वाली' प्रतिक्रियाएं देते हैं। इसके अलावा, एक वीडियो में कई मुद्दे अस्थायी हैं, जिसका अर्थ है कि एक एकल फ्रेम का विश्लेषण पूरी तरह से बिंदु को याद करता है।
एक एलएलएम जिस तरह से एक वीडियो पर एक 'मूल्य निर्णय' की पेशकश कर सकता है, वह पाठ-आधारित ज्ञान का लाभ उठाना है, जैसे कि डीपफेक इमेजरी या कला इतिहास को समझना, मानव अंतर्दृष्टि के आधार पर सीखा एम्बेडिंग के साथ दृश्य गुणों को सहसंबंधित करना।
* FAKEVLM परियोजना एक विशेष मल्टी-मोडल विजन-लैंग्वेज मॉडल के माध्यम से लक्षित डीपफेक डिटेक्शन प्रदान करती है।* स्रोत: https://arxiv.org/pdf/2503.14905
जबकि एक एलएलएम योलो जैसे सहायक एआई सिस्टम की मदद से एक वीडियो में वस्तुओं की पहचान कर सकता है, व्यक्तिपरक मूल्यांकन एक नुकसान फ़ंक्शन-आधारित मीट्रिक के बिना मायावी रहता है जो मानवीय राय को दर्शाता है।
सशर्त दृष्टि
प्रशिक्षण मॉडल में नुकसान के कार्य आवश्यक हैं, यह मापते हैं कि सही उत्तरों से भविष्यवाणियां कितनी दूर हैं, और त्रुटियों को कम करने के लिए मॉडल का मार्गदर्शन करती हैं। उनका उपयोग एआई-जनित सामग्री, जैसे कि फोटोरियोलिस्टिक वीडियो का आकलन करने के लिए भी किया जाता है।
एक लोकप्रिय मीट्रिक फ्रैचेट इंसेप्शन डिस्टेंस (एफआईडी) है, जो उत्पन्न छवियों और वास्तविक छवियों के वितरण के बीच समानता को मापता है। FID सांख्यिकीय अंतरों की गणना करने के लिए इंसेप्शन V3 नेटवर्क का उपयोग करता है, और एक कम स्कोर उच्च दृश्य गुणवत्ता और विविधता को इंगित करता है।
हालांकि, एफआईडी आत्म-संदर्भ और तुलनात्मक है। 2021 में पेश की गई सशर्त Fréchet दूरी (CFD) ने यह भी ध्यान दिया कि कितनी अच्छी तरह से उत्पन्न छवियां अतिरिक्त स्थितियों से मेल खाती हैं, जैसे कि क्लास लेबल या इनपुट छवियां।
* 2021 सीएफडी आउटिंग से उदाहरण।* स्रोत: https://github.com/michael-soloveitchik/cfid/
सीएफडी का उद्देश्य गुणात्मक मानव व्याख्या को मेट्रिक्स में एकीकृत करना है, लेकिन यह दृष्टिकोण संभावित पूर्वाग्रह, लगातार अपडेट की आवश्यकता और बजट की कमी जैसी चुनौतियों का परिचय देता है जो समय के साथ मूल्यांकन की स्थिरता और विश्वसनीयता को प्रभावित कर सकते हैं।
CFRED
अमेरिका का एक हालिया पेपर सशर्त Fréchet दूरी (CFRED) का परिचय देता है, जो दृश्य गुणवत्ता और पाठ-छवि संरेखण दोनों का मूल्यांकन करके मानव वरीयताओं को बेहतर ढंग से प्रतिबिंबित करने के लिए डिज़ाइन किया गया एक नया मीट्रिक है।
*नए पेपर से आंशिक परिणाम: छवि रैंकिंग (1-9) अलग -अलग मैट्रिक्स द्वारा संकेत के लिए "सोफे के साथ एक लिविंग रूम और सोफे पर आराम करने वाला एक लैपटॉप कंप्यूटर।" ग्रीन शीर्ष मानव-रेटेड मॉडल (Flux.1-DEV) को हाइलाइट करता है, सबसे कम (SDV1.5) पर्पल। केवल CFRED मानव रैंकिंग से मेल खाता है। कृपया पूर्ण परिणामों के लिए स्रोत पेपर देखें, जिनके पास यहां प्रजनन के लिए जगह नहीं है।* स्रोत: https://arxiv.org/pdf/2503.21721
लेखकों का तर्क है कि पारंपरिक मैट्रिक्स जैसे इंसेप्शन स्कोर (आईएस) और एफआईडी कम हो जाते हैं क्योंकि वे पूरी तरह से छवि गुणवत्ता पर ध्यान केंद्रित करते हैं, इस पर विचार किए बिना कि छवियां उनके संकेतों से कितनी अच्छी तरह से मेल खाते हैं। वे प्रस्ताव करते हैं कि CFRED इनपुट पाठ पर छवि गुणवत्ता और कंडीशनिंग दोनों को कैप्चर करता है, जिससे मानव वरीयताओं के साथ एक उच्च सहसंबंध होता है।
*कागज के परीक्षणों से संकेत मिलता है कि लेखकों के प्रस्तावित मीट्रिक, सीएफआरईडी, लगातार तीन बेंचमार्क डेटासेट (पार्टिप्रोमप्ट, एचपीडीवी 2, और कोको) पर एफआईडी, एफडीडिनोव 2, क्लिप्सकोर, और सीएमएमडी की तुलना में मानव वरीयताओं के साथ उच्च सहसंबंध प्राप्त करते हैं।**।
अवधारणा और पद्धति
पाठ-से-छवि मॉडल का मूल्यांकन करने के लिए सोने का मानक मानव वरीयता डेटा है जो भीड़-खट्टे तुलना के माध्यम से एकत्र किया गया है, जो बड़े भाषा मॉडल के लिए उपयोग किए जाने वाले तरीकों के समान है। हालांकि, ये विधियाँ महंगी और धीमी हैं, जिससे कुछ प्लेटफार्मों को अपडेट करने के लिए अग्रणी किया गया है।
* आर्टिफिशियल एनालिसिस इमेज एरिना लीडरबोर्ड, जो वर्तमान में अनुमानित नेताओं को जनरेटिव विज़ुअल एआई में रैंक करता है।
FID, CLIPSCORE, और CFRED जैसे स्वचालित मैट्रिक्स भविष्य के मॉडल का मूल्यांकन करने के लिए महत्वपूर्ण हैं, विशेष रूप से मानव प्राथमिकताएं विकसित होती हैं। CFRED मानता है कि वास्तविक और उत्पन्न दोनों छवियां गौसियन वितरण का पालन करती हैं और यथार्थवाद और पाठ स्थिरता दोनों का आकलन करते हुए, संकेतों के दौरान अपेक्षित Fréchet दूरी को मापती हैं।
डेटा और परीक्षण
मानव वरीयताओं के साथ CFRED के सहसंबंध का मूल्यांकन करने के लिए, लेखकों ने एक ही पाठ संकेत के साथ कई मॉडलों से छवि रैंकिंग का उपयोग किया। उन्होंने मानव वरीयता स्कोर V2 (HPDV2) परीक्षण सेट और पार्टिप्रोमप्ट्स एरिना पर आकर्षित किया, जो डेटा को एक ही डेटासेट में समेकित करता है।
नए मॉडल के लिए, उन्होंने कोको की ट्रेन और सत्यापन सेट से 1,000 संकेतों का उपयोग किया, जिससे एचपीडीवी 2 के साथ कोई ओवरलैप नहीं है, और एरिना लीडरबोर्ड से नौ मॉडल का उपयोग करके छवियां उत्पन्न हुई हैं। CFRED का मूल्यांकन कई सांख्यिकीय और सीखा मेट्रिक्स के खिलाफ किया गया था, जो मानव निर्णयों के साथ मजबूत संरेखण दिखा रहा था।
*HPDV2 परीक्षण सेट पर मॉडल रैंकिंग और स्कोर सांख्यिकीय मैट्रिक्स (FID, FDDINOV2, CLIPSCORE, CMMD, और CFRED) और मानव वरीयता-प्रशिक्षित मैट्रिक्स (सौंदर्यशास्त्र स्कोर, इमेजरेवर्ड, HPSV2, और MPS) का उपयोग करके। सर्वश्रेष्ठ परिणाम बोल्ड में दिखाए गए हैं, दूसरे सर्वश्रेष्ठ को रेखांकित किया गया है।*
CFRED ने मानव वरीयताओं के साथ उच्चतम संरेखण प्राप्त किया, 0.97 के सहसंबंध और 91.1%की रैंक सटीकता तक पहुंच गई। इसने अन्य मैट्रिक्स को बेहतर बनाया, जिसमें मानव वरीयता डेटा पर प्रशिक्षित शामिल हैं, जो विविध मॉडलों में इसकी विश्वसनीयता का प्रदर्शन करते हैं।
*सांख्यिकीय मेट्रिक्स (FID, FDDINOV2, CLIPSCORE, CMMD, और CFRED) और मानव वरीयता-प्रशिक्षित मैट्रिक्स (सौंदर्यशास्त्र स्कोर, इमेजेयर, और MPS) का उपयोग करके पार्टिप्रोमप्ट पर मॉडल रैंकिंग और स्कोर। सर्वश्रेष्ठ परिणाम बोल्ड में हैं, दूसरे सर्वश्रेष्ठ को रेखांकित किया गया है।*
Partiprompts क्षेत्र में, CFRED ने 0.73 पर मानव मूल्यांकन के साथ उच्चतम सहसंबंध दिखाया, इसके बाद FID और FDDINOV2 का बारीकी से। हालांकि, HPSV2, मानव वरीयताओं पर प्रशिक्षित, 0.83 पर सबसे मजबूत संरेखण था।
*स्वचालित मेट्रिक्स (FID, FDDINOV2, Clipscore, CMMD, और CFRED) और मानव वरीयता-प्रशिक्षित मैट्रिक्स (सौंदर्यशास्त्र स्कोर, इमेजरेवर्ड, HPSV2, और MPS) का उपयोग करके यादृच्छिक रूप से नमूना कोको पर मॉडल रैंकिंग। 0.5 के नीचे एक रैंक सटीकता समवर्ती जोड़े की तुलना में अधिक असंतोष को इंगित करता है, और सबसे अच्छे परिणाम बोल्ड में हैं, दूसरे सर्वश्रेष्ठ को रेखांकित किया गया है।*
कोको डेटासेट मूल्यांकन में, CFRED ने 0.33 का सहसंबंध और 66.67%की रैंक सटीकता प्राप्त की, मानव वरीयताओं के साथ संरेखण में तीसरा रैंकिंग, मानव डेटा पर प्रशिक्षित केवल मेट्रिक्स के पीछे।
*जीत दरों से पता चलता है कि प्रत्येक छवि बैकबोन की रैंकिंग कितनी बार कोको डेटासेट पर सही मानव-व्युत्पन्न रैंकिंग से मेल खाती है।*
लेखकों ने इंसेप्शन V3 का भी परीक्षण किया और पाया कि इसे DINOV2-L/14 और VIT-L/16 जैसे ट्रांसफार्मर-आधारित बैकबोन द्वारा बाहर किया गया है, जो लगातार मानव रैंकिंग के साथ बेहतर संरेखित करता है।
निष्कर्ष
जबकि मानव-इन-द-लूप समाधान मीट्रिक और हानि कार्यों को विकसित करने के लिए इष्टतम दृष्टिकोण बने हुए हैं, अपडेट के पैमाने और आवृत्ति उन्हें अव्यवहारिक बनाते हैं। CFRED की विश्वसनीयता मानव निर्णय के साथ अपने संरेखण पर टिका है, यद्यपि अप्रत्यक्ष रूप से। मीट्रिक की वैधता मानव वरीयता डेटा पर निर्भर करती है, जैसे कि इस तरह के बेंचमार्क के बिना, मानव-जैसे मूल्यांकन के दावे अप्राप्य होंगे।
एक मीट्रिक फ़ंक्शन में उदार उत्पादन में 'यथार्थवाद' के लिए वर्तमान मानदंडों को बढ़ाना एक दीर्घकालिक गलती हो सकती है, जो कि वास्तविकता की हमारी समझ की विकसित प्रकृति को देखते हुए, जनरेटिव एआई सिस्टम की नई लहर द्वारा संचालित है।
*इस बिंदु पर, मैं आम तौर पर एक अनुकरणीय चित्रण वीडियो उदाहरण शामिल करता हूं, शायद हाल ही में एक शैक्षणिक सबमिशन से; लेकिन यह मतलब-उत्साही होगा-जो कोई भी 10-15 मिनट से अधिक समय बिताता है, वह Arxiv के जनरेटिव AI आउटपुट को ट्रैक करने के लिए पहले से ही पूरक वीडियो में आया होगा, जिनकी विषयगत रूप से खराब गुणवत्ता इंगित करती है कि संबंधित सबमिशन को एक लैंडमार्क पेपर के रूप में नहीं रखा जाएगा।*
*प्रयोगों में कुल 46 छवि बैकबोन मॉडल का उपयोग किया गया था, जिनमें से सभी को रेखांकन परिणामों में नहीं माना जाता है। कृपया पूरी सूची के लिए पेपर के परिशिष्ट को देखें; तालिकाओं और आंकड़ों में चित्रित किए गए लोगों को सूचीबद्ध किया गया है।*
पहली बार मंगलवार, 1 अप्रैल, 2025 को प्रकाशित किया गया
संबंधित लेख
AI in Medical Advisories: Transforming Healthcare
कृत्रिम बुद्धिमत्ता तेजी से स्वास्थ्य सेवा परिदृश्य को बदल रही है, और इसका कारण समझना मुश्किल नहीं है। तकनीकी प्रगति की गति ने उन संभावनाओं के द्वार खोल दिए हैं जो पहले असंभव मानी जाती थीं। यह लेख चिक
Aulani, Disney's Resort & Spa: Your Family's Ultimate Hawaiian Getaway
Aulani की खोज: डिज़्नी के स्पर्श के साथ एक हवाईयन स्वर्गक्या आप एक ऐसी पारिवारिक छुट्टी का सपना देख रहे हैं जो डिज़्नी के जादू को हवाई की अद्भुत सुंदरता के साथ जोड़े? Aulani, एक Disney Resort & Spa, ज
Airbnb अमेरिका में चुपके से AI ग्राहक सेवा बॉट लॉन्च कर रहा है
Airbnb AI-संचालित ग्राहक सेवा को नई ऊंचाइयों पर ले जा रहा हैपिछले महीने, Airbnb की पहली तिमाही की आय कॉल के दौरान, CEO ब्रायन चेस्की ने घोषणा की कि कंपनी ने अमेरिका में एक AI-संचालित ग्राहक सेवा बॉट ल
सूचना (5)
0/200
GaryGarcia
23 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎
0
GaryGonzalez
20 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊
0
FrankSmith
25 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉
0
KennethKing
22 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄
0
DouglasPerez
22 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃
0
एआई अनुसंधान में वीडियो सामग्री के मूल्यांकन की चुनौती
जब कंप्यूटर विजन साहित्य की दुनिया में गोताखोरी होती है, तो बड़े विजन-भाषा मॉडल (LVLMS) जटिल सबमिशन की व्याख्या करने के लिए अमूल्य हो सकते हैं। हालांकि, वे एक महत्वपूर्ण सड़क पर मारा, जब वैज्ञानिक कागजात के साथ वीडियो उदाहरणों की गुणवत्ता और गुणों का आकलन करने की बात आती है। यह एक महत्वपूर्ण पहलू है क्योंकि सम्मोहक दृश्य केवल उतने ही महत्वपूर्ण हैं जितना कि उत्साह पैदा करने और अनुसंधान परियोजनाओं में किए गए दावों को मान्य करने में पाठ।
वीडियो संश्लेषण परियोजनाएं, विशेष रूप से, खारिज किए जाने से बचने के लिए वास्तविक वीडियो आउटपुट का प्रदर्शन करने पर बहुत अधिक भरोसा करती हैं। यह इन प्रदर्शनों में है जहां किसी परियोजना के वास्तविक दुनिया के प्रदर्शन का वास्तव में मूल्यांकन किया जा सकता है, अक्सर परियोजना के बोल्ड दावों और इसकी वास्तविक क्षमताओं के बीच अंतर को प्रकट करता है।
मैंने किताब पढ़ी, फिल्म नहीं देखी
वर्तमान में, लोकप्रिय एपीआई-आधारित बड़े भाषा मॉडल (एलएलएम) और बड़े दृष्टि-भाषा मॉडल (एलवीएलएम) सीधे वीडियो सामग्री का विश्लेषण करने के लिए सुसज्जित नहीं हैं। उनकी क्षमताएं वीडियो से संबंधित टेप और अन्य पाठ-आधारित सामग्रियों का विश्लेषण करने तक सीमित हैं। यह सीमा तब स्पष्ट होती है जब इन मॉडलों को सीधे वीडियो सामग्री का विश्लेषण करने के लिए कहा जाता है।
*GPT-4O, Google Gemini और Perplexity की विविध आपत्तियां, जब सीधे वीडियो का विश्लेषण करने के लिए कहा जाता है, तो टेप या अन्य पाठ-आधारित स्रोतों के लिए सहारा के बिना।**
कुछ मॉडल, जैसे कि CHATGPT-4O, एक वीडियो के व्यक्तिपरक मूल्यांकन प्रदान करने का भी प्रयास कर सकते हैं, लेकिन अंततः दबाए जाने पर वीडियो देखने में उनकी अक्षमता को स्वीकार करेंगे।
*एक नए शोध पत्र के संबद्ध वीडियो का एक व्यक्तिपरक मूल्यांकन प्रदान करने के लिए कहा गया है, और एक वास्तविक राय फेकने के बाद, CHATGPT-4O अंततः स्वीकार करता है कि यह वास्तव में सीधे वीडियो नहीं देख सकता है।*
यद्यपि ये मॉडल मल्टीमॉडल हैं और व्यक्तिगत तस्वीरों का विश्लेषण कर सकते हैं, जैसे कि एक वीडियो से निकाले गए फ्रेम, गुणात्मक राय प्रदान करने की उनकी क्षमता संदिग्ध है। LLMS अक्सर ईमानदार आलोचकों के बजाय 'लोगों को प्रसन्न करने वाली' प्रतिक्रियाएं देते हैं। इसके अलावा, एक वीडियो में कई मुद्दे अस्थायी हैं, जिसका अर्थ है कि एक एकल फ्रेम का विश्लेषण पूरी तरह से बिंदु को याद करता है।
एक एलएलएम जिस तरह से एक वीडियो पर एक 'मूल्य निर्णय' की पेशकश कर सकता है, वह पाठ-आधारित ज्ञान का लाभ उठाना है, जैसे कि डीपफेक इमेजरी या कला इतिहास को समझना, मानव अंतर्दृष्टि के आधार पर सीखा एम्बेडिंग के साथ दृश्य गुणों को सहसंबंधित करना।
* FAKEVLM परियोजना एक विशेष मल्टी-मोडल विजन-लैंग्वेज मॉडल के माध्यम से लक्षित डीपफेक डिटेक्शन प्रदान करती है।* स्रोत: https://arxiv.org/pdf/2503.14905
जबकि एक एलएलएम योलो जैसे सहायक एआई सिस्टम की मदद से एक वीडियो में वस्तुओं की पहचान कर सकता है, व्यक्तिपरक मूल्यांकन एक नुकसान फ़ंक्शन-आधारित मीट्रिक के बिना मायावी रहता है जो मानवीय राय को दर्शाता है।
सशर्त दृष्टि
प्रशिक्षण मॉडल में नुकसान के कार्य आवश्यक हैं, यह मापते हैं कि सही उत्तरों से भविष्यवाणियां कितनी दूर हैं, और त्रुटियों को कम करने के लिए मॉडल का मार्गदर्शन करती हैं। उनका उपयोग एआई-जनित सामग्री, जैसे कि फोटोरियोलिस्टिक वीडियो का आकलन करने के लिए भी किया जाता है।
एक लोकप्रिय मीट्रिक फ्रैचेट इंसेप्शन डिस्टेंस (एफआईडी) है, जो उत्पन्न छवियों और वास्तविक छवियों के वितरण के बीच समानता को मापता है। FID सांख्यिकीय अंतरों की गणना करने के लिए इंसेप्शन V3 नेटवर्क का उपयोग करता है, और एक कम स्कोर उच्च दृश्य गुणवत्ता और विविधता को इंगित करता है।
हालांकि, एफआईडी आत्म-संदर्भ और तुलनात्मक है। 2021 में पेश की गई सशर्त Fréchet दूरी (CFD) ने यह भी ध्यान दिया कि कितनी अच्छी तरह से उत्पन्न छवियां अतिरिक्त स्थितियों से मेल खाती हैं, जैसे कि क्लास लेबल या इनपुट छवियां।
* 2021 सीएफडी आउटिंग से उदाहरण।* स्रोत: https://github.com/michael-soloveitchik/cfid/
सीएफडी का उद्देश्य गुणात्मक मानव व्याख्या को मेट्रिक्स में एकीकृत करना है, लेकिन यह दृष्टिकोण संभावित पूर्वाग्रह, लगातार अपडेट की आवश्यकता और बजट की कमी जैसी चुनौतियों का परिचय देता है जो समय के साथ मूल्यांकन की स्थिरता और विश्वसनीयता को प्रभावित कर सकते हैं।
CFRED
अमेरिका का एक हालिया पेपर सशर्त Fréchet दूरी (CFRED) का परिचय देता है, जो दृश्य गुणवत्ता और पाठ-छवि संरेखण दोनों का मूल्यांकन करके मानव वरीयताओं को बेहतर ढंग से प्रतिबिंबित करने के लिए डिज़ाइन किया गया एक नया मीट्रिक है।
*नए पेपर से आंशिक परिणाम: छवि रैंकिंग (1-9) अलग -अलग मैट्रिक्स द्वारा संकेत के लिए "सोफे के साथ एक लिविंग रूम और सोफे पर आराम करने वाला एक लैपटॉप कंप्यूटर।" ग्रीन शीर्ष मानव-रेटेड मॉडल (Flux.1-DEV) को हाइलाइट करता है, सबसे कम (SDV1.5) पर्पल। केवल CFRED मानव रैंकिंग से मेल खाता है। कृपया पूर्ण परिणामों के लिए स्रोत पेपर देखें, जिनके पास यहां प्रजनन के लिए जगह नहीं है।* स्रोत: https://arxiv.org/pdf/2503.21721
लेखकों का तर्क है कि पारंपरिक मैट्रिक्स जैसे इंसेप्शन स्कोर (आईएस) और एफआईडी कम हो जाते हैं क्योंकि वे पूरी तरह से छवि गुणवत्ता पर ध्यान केंद्रित करते हैं, इस पर विचार किए बिना कि छवियां उनके संकेतों से कितनी अच्छी तरह से मेल खाते हैं। वे प्रस्ताव करते हैं कि CFRED इनपुट पाठ पर छवि गुणवत्ता और कंडीशनिंग दोनों को कैप्चर करता है, जिससे मानव वरीयताओं के साथ एक उच्च सहसंबंध होता है।
*कागज के परीक्षणों से संकेत मिलता है कि लेखकों के प्रस्तावित मीट्रिक, सीएफआरईडी, लगातार तीन बेंचमार्क डेटासेट (पार्टिप्रोमप्ट, एचपीडीवी 2, और कोको) पर एफआईडी, एफडीडिनोव 2, क्लिप्सकोर, और सीएमएमडी की तुलना में मानव वरीयताओं के साथ उच्च सहसंबंध प्राप्त करते हैं।**।
अवधारणा और पद्धति
पाठ-से-छवि मॉडल का मूल्यांकन करने के लिए सोने का मानक मानव वरीयता डेटा है जो भीड़-खट्टे तुलना के माध्यम से एकत्र किया गया है, जो बड़े भाषा मॉडल के लिए उपयोग किए जाने वाले तरीकों के समान है। हालांकि, ये विधियाँ महंगी और धीमी हैं, जिससे कुछ प्लेटफार्मों को अपडेट करने के लिए अग्रणी किया गया है।
* आर्टिफिशियल एनालिसिस इमेज एरिना लीडरबोर्ड, जो वर्तमान में अनुमानित नेताओं को जनरेटिव विज़ुअल एआई में रैंक करता है।
FID, CLIPSCORE, और CFRED जैसे स्वचालित मैट्रिक्स भविष्य के मॉडल का मूल्यांकन करने के लिए महत्वपूर्ण हैं, विशेष रूप से मानव प्राथमिकताएं विकसित होती हैं। CFRED मानता है कि वास्तविक और उत्पन्न दोनों छवियां गौसियन वितरण का पालन करती हैं और यथार्थवाद और पाठ स्थिरता दोनों का आकलन करते हुए, संकेतों के दौरान अपेक्षित Fréchet दूरी को मापती हैं।
डेटा और परीक्षण
मानव वरीयताओं के साथ CFRED के सहसंबंध का मूल्यांकन करने के लिए, लेखकों ने एक ही पाठ संकेत के साथ कई मॉडलों से छवि रैंकिंग का उपयोग किया। उन्होंने मानव वरीयता स्कोर V2 (HPDV2) परीक्षण सेट और पार्टिप्रोमप्ट्स एरिना पर आकर्षित किया, जो डेटा को एक ही डेटासेट में समेकित करता है।
नए मॉडल के लिए, उन्होंने कोको की ट्रेन और सत्यापन सेट से 1,000 संकेतों का उपयोग किया, जिससे एचपीडीवी 2 के साथ कोई ओवरलैप नहीं है, और एरिना लीडरबोर्ड से नौ मॉडल का उपयोग करके छवियां उत्पन्न हुई हैं। CFRED का मूल्यांकन कई सांख्यिकीय और सीखा मेट्रिक्स के खिलाफ किया गया था, जो मानव निर्णयों के साथ मजबूत संरेखण दिखा रहा था।
*HPDV2 परीक्षण सेट पर मॉडल रैंकिंग और स्कोर सांख्यिकीय मैट्रिक्स (FID, FDDINOV2, CLIPSCORE, CMMD, और CFRED) और मानव वरीयता-प्रशिक्षित मैट्रिक्स (सौंदर्यशास्त्र स्कोर, इमेजरेवर्ड, HPSV2, और MPS) का उपयोग करके। सर्वश्रेष्ठ परिणाम बोल्ड में दिखाए गए हैं, दूसरे सर्वश्रेष्ठ को रेखांकित किया गया है।*
CFRED ने मानव वरीयताओं के साथ उच्चतम संरेखण प्राप्त किया, 0.97 के सहसंबंध और 91.1%की रैंक सटीकता तक पहुंच गई। इसने अन्य मैट्रिक्स को बेहतर बनाया, जिसमें मानव वरीयता डेटा पर प्रशिक्षित शामिल हैं, जो विविध मॉडलों में इसकी विश्वसनीयता का प्रदर्शन करते हैं।
*सांख्यिकीय मेट्रिक्स (FID, FDDINOV2, CLIPSCORE, CMMD, और CFRED) और मानव वरीयता-प्रशिक्षित मैट्रिक्स (सौंदर्यशास्त्र स्कोर, इमेजेयर, और MPS) का उपयोग करके पार्टिप्रोमप्ट पर मॉडल रैंकिंग और स्कोर। सर्वश्रेष्ठ परिणाम बोल्ड में हैं, दूसरे सर्वश्रेष्ठ को रेखांकित किया गया है।*
Partiprompts क्षेत्र में, CFRED ने 0.73 पर मानव मूल्यांकन के साथ उच्चतम सहसंबंध दिखाया, इसके बाद FID और FDDINOV2 का बारीकी से। हालांकि, HPSV2, मानव वरीयताओं पर प्रशिक्षित, 0.83 पर सबसे मजबूत संरेखण था।
*स्वचालित मेट्रिक्स (FID, FDDINOV2, Clipscore, CMMD, और CFRED) और मानव वरीयता-प्रशिक्षित मैट्रिक्स (सौंदर्यशास्त्र स्कोर, इमेजरेवर्ड, HPSV2, और MPS) का उपयोग करके यादृच्छिक रूप से नमूना कोको पर मॉडल रैंकिंग। 0.5 के नीचे एक रैंक सटीकता समवर्ती जोड़े की तुलना में अधिक असंतोष को इंगित करता है, और सबसे अच्छे परिणाम बोल्ड में हैं, दूसरे सर्वश्रेष्ठ को रेखांकित किया गया है।*
कोको डेटासेट मूल्यांकन में, CFRED ने 0.33 का सहसंबंध और 66.67%की रैंक सटीकता प्राप्त की, मानव वरीयताओं के साथ संरेखण में तीसरा रैंकिंग, मानव डेटा पर प्रशिक्षित केवल मेट्रिक्स के पीछे।
*जीत दरों से पता चलता है कि प्रत्येक छवि बैकबोन की रैंकिंग कितनी बार कोको डेटासेट पर सही मानव-व्युत्पन्न रैंकिंग से मेल खाती है।*
लेखकों ने इंसेप्शन V3 का भी परीक्षण किया और पाया कि इसे DINOV2-L/14 और VIT-L/16 जैसे ट्रांसफार्मर-आधारित बैकबोन द्वारा बाहर किया गया है, जो लगातार मानव रैंकिंग के साथ बेहतर संरेखित करता है।
निष्कर्ष
जबकि मानव-इन-द-लूप समाधान मीट्रिक और हानि कार्यों को विकसित करने के लिए इष्टतम दृष्टिकोण बने हुए हैं, अपडेट के पैमाने और आवृत्ति उन्हें अव्यवहारिक बनाते हैं। CFRED की विश्वसनीयता मानव निर्णय के साथ अपने संरेखण पर टिका है, यद्यपि अप्रत्यक्ष रूप से। मीट्रिक की वैधता मानव वरीयता डेटा पर निर्भर करती है, जैसे कि इस तरह के बेंचमार्क के बिना, मानव-जैसे मूल्यांकन के दावे अप्राप्य होंगे।
एक मीट्रिक फ़ंक्शन में उदार उत्पादन में 'यथार्थवाद' के लिए वर्तमान मानदंडों को बढ़ाना एक दीर्घकालिक गलती हो सकती है, जो कि वास्तविकता की हमारी समझ की विकसित प्रकृति को देखते हुए, जनरेटिव एआई सिस्टम की नई लहर द्वारा संचालित है।
*इस बिंदु पर, मैं आम तौर पर एक अनुकरणीय चित्रण वीडियो उदाहरण शामिल करता हूं, शायद हाल ही में एक शैक्षणिक सबमिशन से; लेकिन यह मतलब-उत्साही होगा-जो कोई भी 10-15 मिनट से अधिक समय बिताता है, वह Arxiv के जनरेटिव AI आउटपुट को ट्रैक करने के लिए पहले से ही पूरक वीडियो में आया होगा, जिनकी विषयगत रूप से खराब गुणवत्ता इंगित करती है कि संबंधित सबमिशन को एक लैंडमार्क पेपर के रूप में नहीं रखा जाएगा।*
*प्रयोगों में कुल 46 छवि बैकबोन मॉडल का उपयोग किया गया था, जिनमें से सभी को रेखांकन परिणामों में नहीं माना जाता है। कृपया पूरी सूची के लिए पेपर के परिशिष्ट को देखें; तालिकाओं और आंकड़ों में चित्रित किए गए लोगों को सूचीबद्ध किया गया है।*
पहली बार मंगलवार, 1 अप्रैल, 2025 को प्रकाशित किया गया




AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎




AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊




AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉




AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄




AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃












