नई AI मॉडल्स से OpenAI में तर्क कार्यों में उच्च भ्रम दर दिखाई देती है

OpenAI के नवीनतम रिलीज किए गए o3 और o4-mini AI मॉडल कई क्षेत्रों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन पहले के मॉडलों की तुलना में अधिक भ्रम की प्रवृत्ति दिखाते हैं, जिससे अधिक गलत जानकारी उत्पन्न होती है।
AI में भ्रम एक लगातार चुनौती बना हुआ है, यहां तक कि शीर्ष स्तर के सिस्टमों के लिए भी। आमतौर पर, नए मॉडल भ्रम की दर को कम करते हैं, लेकिन o3 और o4-mini इस प्रवृत्ति से विचलित होते हैं।
OpenAI के आंतरिक परीक्षणों से पता चलता है कि o3 और o4-mini, जो तर्क मॉडल के रूप में डिज़ाइन किए गए हैं, पहले के तर्क मॉडलों जैसे o1, o1-mini, और o3-mini, साथ ही गैर-तर्क मॉडलों जैसे GPT-4o की तुलना में अधिक बार भ्रम उत्पन्न करते हैं।
इस वृद्धि का कारण OpenAI के लिए अभी तक स्पष्ट नहीं है, जो चिंता का विषय है।
OpenAI की o3 और o4-mini पर तकनीकी रिपोर्ट में उल्लेख किया गया है कि बढ़े हुए तर्क मॉडलों के साथ भ्रम की दर क्यों बढ़ रही है, इसे समझने के लिए और शोध की आवश्यकता है। हालांकि ये मॉडल कोडिंग और गणित जैसे क्षेत्रों में बेहतर प्रदर्शन करते हैं, लेकिन उनकी अधिक दावे करने की प्रवृत्ति सटीक और गलत दोनों तरह के आउटपुट की ओर ले जाती है, जैसा कि रिपोर्ट में बताया गया है।
OpenAI के PersonQA बेंचमार्क पर, o3 ने 33% प्रतिक्रियाओं में भ्रम दिखाया, जो o1 (16%) और o3-mini (14.8%) की दरों से दोगुना है। O4-mini का प्रदर्शन और भी खराब रहा, जिसमें 48% मामलों में भ्रम देखा गया।
Transluce, एक गैर-लाभकारी AI शोध समूह, ने पाया कि o3 ने ऐसी कार्रवाइयां गढ़ीं, जैसे दावा करना कि उसने ChatGPT के बाहर 2021 MacBook Pro पर कोड चलाया, जबकि उसके पास ऐसी क्षमता नहीं है।
“हमें संदेह है कि o-सीरीज मॉडलों में उपयोग की गई रीइन्फोर्समेंट लर्निंग उन समस्याओं को बढ़ा सकती है, जिन्हें आमतौर पर मानक पोस्ट-ट्रेनिंग विधियों से कम किया जाता है,” Transluce के शोधकर्ता और पूर्व OpenAI कर्मचारी नील चौधरी ने TechCrunch को एक ईमेल में कहा।
Transluce की सह-संस्थापक सारा श्वेटमैन ने उल्लेख किया कि o3 की भ्रम दर इसकी व्यावहारिक उपयोगिता को कम कर सकती है।
कियान कटानफोरोश, स्टैनफोर्ड के सहायक प्रोफेसर और Workera के सीईओ, ने TechCrunch को बताया कि उनकी टीम ने o3 को कोडिंग वर्कफ्लो के लिए बेहतर पाया, लेकिन यह टूटे हुए वेबसाइट लिंक उत्पन्न करने की प्रवृत्ति रखता है।
हालांकि भ्रम रचनात्मक विचारों को प्रेरित कर सकते हैं, लेकिन वे कानून जैसे उद्योगों के लिए चुनौतियां पेश करते हैं, जहां सटीकता महत्वपूर्ण है और दस्तावेजों में त्रुटियां अस्वीकार्य हैं।
वेब खोज क्षमताओं को एकीकृत करना सटीकता में सुधार के लिए वादा दिखाता है। OpenAI का GPT-4o वेब खोज के साथ SimpleQA पर 90% सटीकता प्राप्त करता है, जो तर्क मॉडलों में भ्रम को कम करने की संभावना का सुझाव देता है जब उपयोगकर्ता तृतीय-पक्ष खोज पहुंच की अनुमति देते हैं।
यदि तर्क मॉडलों का स्केलिंग भ्रम को बढ़ाता रहता है, तो समाधान ढूंढना तेजी से महत्वपूर्ण हो जाएगा।
“मॉडल की सटीकता और विश्वसनीयता में सुधार हमारी चल रही शोध का एक प्रमुख फोकस है,” OpenAI के प्रवक्ता निको फेलिक्स ने TechCrunch को एक ईमेल में कहा।
AI उद्योग ने हाल ही में तर्क मॉडलों की ओर रुख किया है, जो व्यापक कंप्यूटिंग संसाधनों की आवश्यकता के बिना प्रदर्शन को बढ़ाते हैं। हालांकि, यह बदलाव भ्रम के जोखिम को बढ़ाता प्रतीत होता है, जो एक महत्वपूर्ण चुनौती पेश करता है।
संबंधित लेख
AI शोधकर्ता की ग्रीन कार्ड अस्वीकृति ने अमेरिकी प्रतिभा प्रतिधारण पर चिंता जताई
काई चेन, OpenAI में एक कनाडाई AI विशेषज्ञ, जो 12 वर्षों से अमेरिका में हैं, को ग्रीन कार्ड से वंचित कर दिया गया, ऐसा कंपनी के प्रमुख शोध वैज्ञानिक नोम ब्राउन ने बताया। X पर एक पोस्ट में, ब्राउन ने खुल
वाशिंगटन पोस्ट ने ओपनएआई के साथ साझेदारी करके चैटजीपीटी के माध्यम से समाचार पहुंच को बढ़ाया
वाशिंगटन पोस्ट और OpenAI ने एक “रणनीतिक साझेदारी” की घोषणा की है ताकि “चैटजीपीटी के माध्यम से विश्वसनीय समाचारों तक पहुंच का विस्तार किया जा सके,” जैसा कि वाशिंगटन पोस्ट के प्रेस विज्ञप्ति में कहा गया
OpenAI अपनी गैर-लाभकारी जड़ों की पुन: पुष्टि करता है प्रमुख कॉर्पोरेट पुनर्गठन में
OpenAI अपनी गैर-लाभकारी मिशन में दृढ़ रहता है क्योंकि यह एक महत्वपूर्ण कॉर्पोरेट पुनर्गठन से गुजर रहा है, विकास को नैतिक AI विकास के प्रति अपनी प्रतिबद्धता के साथ संतुलित करता है।सीईओ सैम ऑल्टमैन ने क
सूचना (0)
0/200
OpenAI के नवीनतम रिलीज किए गए o3 और o4-mini AI मॉडल कई क्षेत्रों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन पहले के मॉडलों की तुलना में अधिक भ्रम की प्रवृत्ति दिखाते हैं, जिससे अधिक गलत जानकारी उत्पन्न होती है।
AI में भ्रम एक लगातार चुनौती बना हुआ है, यहां तक कि शीर्ष स्तर के सिस्टमों के लिए भी। आमतौर पर, नए मॉडल भ्रम की दर को कम करते हैं, लेकिन o3 और o4-mini इस प्रवृत्ति से विचलित होते हैं।
OpenAI के आंतरिक परीक्षणों से पता चलता है कि o3 और o4-mini, जो तर्क मॉडल के रूप में डिज़ाइन किए गए हैं, पहले के तर्क मॉडलों जैसे o1, o1-mini, और o3-mini, साथ ही गैर-तर्क मॉडलों जैसे GPT-4o की तुलना में अधिक बार भ्रम उत्पन्न करते हैं।
इस वृद्धि का कारण OpenAI के लिए अभी तक स्पष्ट नहीं है, जो चिंता का विषय है।
OpenAI की o3 और o4-mini पर तकनीकी रिपोर्ट में उल्लेख किया गया है कि बढ़े हुए तर्क मॉडलों के साथ भ्रम की दर क्यों बढ़ रही है, इसे समझने के लिए और शोध की आवश्यकता है। हालांकि ये मॉडल कोडिंग और गणित जैसे क्षेत्रों में बेहतर प्रदर्शन करते हैं, लेकिन उनकी अधिक दावे करने की प्रवृत्ति सटीक और गलत दोनों तरह के आउटपुट की ओर ले जाती है, जैसा कि रिपोर्ट में बताया गया है।
OpenAI के PersonQA बेंचमार्क पर, o3 ने 33% प्रतिक्रियाओं में भ्रम दिखाया, जो o1 (16%) और o3-mini (14.8%) की दरों से दोगुना है। O4-mini का प्रदर्शन और भी खराब रहा, जिसमें 48% मामलों में भ्रम देखा गया।
Transluce, एक गैर-लाभकारी AI शोध समूह, ने पाया कि o3 ने ऐसी कार्रवाइयां गढ़ीं, जैसे दावा करना कि उसने ChatGPT के बाहर 2021 MacBook Pro पर कोड चलाया, जबकि उसके पास ऐसी क्षमता नहीं है।
“हमें संदेह है कि o-सीरीज मॉडलों में उपयोग की गई रीइन्फोर्समेंट लर्निंग उन समस्याओं को बढ़ा सकती है, जिन्हें आमतौर पर मानक पोस्ट-ट्रेनिंग विधियों से कम किया जाता है,” Transluce के शोधकर्ता और पूर्व OpenAI कर्मचारी नील चौधरी ने TechCrunch को एक ईमेल में कहा।
Transluce की सह-संस्थापक सारा श्वेटमैन ने उल्लेख किया कि o3 की भ्रम दर इसकी व्यावहारिक उपयोगिता को कम कर सकती है।
कियान कटानफोरोश, स्टैनफोर्ड के सहायक प्रोफेसर और Workera के सीईओ, ने TechCrunch को बताया कि उनकी टीम ने o3 को कोडिंग वर्कफ्लो के लिए बेहतर पाया, लेकिन यह टूटे हुए वेबसाइट लिंक उत्पन्न करने की प्रवृत्ति रखता है।
हालांकि भ्रम रचनात्मक विचारों को प्रेरित कर सकते हैं, लेकिन वे कानून जैसे उद्योगों के लिए चुनौतियां पेश करते हैं, जहां सटीकता महत्वपूर्ण है और दस्तावेजों में त्रुटियां अस्वीकार्य हैं।
वेब खोज क्षमताओं को एकीकृत करना सटीकता में सुधार के लिए वादा दिखाता है। OpenAI का GPT-4o वेब खोज के साथ SimpleQA पर 90% सटीकता प्राप्त करता है, जो तर्क मॉडलों में भ्रम को कम करने की संभावना का सुझाव देता है जब उपयोगकर्ता तृतीय-पक्ष खोज पहुंच की अनुमति देते हैं।
यदि तर्क मॉडलों का स्केलिंग भ्रम को बढ़ाता रहता है, तो समाधान ढूंढना तेजी से महत्वपूर्ण हो जाएगा।
“मॉडल की सटीकता और विश्वसनीयता में सुधार हमारी चल रही शोध का एक प्रमुख फोकस है,” OpenAI के प्रवक्ता निको फेलिक्स ने TechCrunch को एक ईमेल में कहा।
AI उद्योग ने हाल ही में तर्क मॉडलों की ओर रुख किया है, जो व्यापक कंप्यूटिंग संसाधनों की आवश्यकता के बिना प्रदर्शन को बढ़ाते हैं। हालांकि, यह बदलाव भ्रम के जोखिम को बढ़ाता प्रतीत होता है, जो एक महत्वपूर्ण चुनौती पेश करता है।











