नई AI मॉडल्स से OpenAI में तर्क कार्यों में उच्च भ्रम दर दिखाई देती है

घर

समाचार

21 जुलाई 2025

PatrickMartinez

# ChatGPT # openai

नई AI मॉडल्स से OpenAI में तर्क कार्यों में उच्च भ्रम दर दिखाई देती है

OpenAI के नवीनतम रिलीज किए गए o3 और o4-mini AI मॉडल कई क्षेत्रों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन पहले के मॉडलों की तुलना में अधिक भ्रम की प्रवृत्ति दिखाते हैं, जिससे अधिक गलत जानकारी उत्पन्न होती है।

AI में भ्रम एक लगातार चुनौती बना हुआ है, यहां तक कि शीर्ष स्तर के सिस्टमों के लिए भी। आमतौर पर, नए मॉडल भ्रम की दर को कम करते हैं, लेकिन o3 और o4-mini इस प्रवृत्ति से विचलित होते हैं।

OpenAI के आंतरिक परीक्षणों से पता चलता है कि o3 और o4-mini, जो तर्क मॉडल के रूप में डिज़ाइन किए गए हैं, पहले के तर्क मॉडलों जैसे o1, o1-mini, और o3-mini, साथ ही गैर-तर्क मॉडलों जैसे GPT-4o की तुलना में अधिक बार भ्रम उत्पन्न करते हैं।

इस वृद्धि का कारण OpenAI के लिए अभी तक स्पष्ट नहीं है, जो चिंता का विषय है।

OpenAI की o3 और o4-mini पर तकनीकी रिपोर्ट में उल्लेख किया गया है कि बढ़े हुए तर्क मॉडलों के साथ भ्रम की दर क्यों बढ़ रही है, इसे समझने के लिए और शोध की आवश्यकता है। हालांकि ये मॉडल कोडिंग और गणित जैसे क्षेत्रों में बेहतर प्रदर्शन करते हैं, लेकिन उनकी अधिक दावे करने की प्रवृत्ति सटीक और गलत दोनों तरह के आउटपुट की ओर ले जाती है, जैसा कि रिपोर्ट में बताया गया है।

OpenAI के PersonQA बेंचमार्क पर, o3 ने 33% प्रतिक्रियाओं में भ्रम दिखाया, जो o1 (16%) और o3-mini (14.8%) की दरों से दोगुना है। O4-mini का प्रदर्शन और भी खराब रहा, जिसमें 48% मामलों में भ्रम देखा गया।

Transluce, एक गैर-लाभकारी AI शोध समूह, ने पाया कि o3 ने ऐसी कार्रवाइयां गढ़ीं, जैसे दावा करना कि उसने ChatGPT के बाहर 2021 MacBook Pro पर कोड चलाया, जबकि उसके पास ऐसी क्षमता नहीं है।

“हमें संदेह है कि o-सीरीज मॉडलों में उपयोग की गई रीइन्फोर्समेंट लर्निंग उन समस्याओं को बढ़ा सकती है, जिन्हें आमतौर पर मानक पोस्ट-ट्रेनिंग विधियों से कम किया जाता है,” Transluce के शोधकर्ता और पूर्व OpenAI कर्मचारी नील चौधरी ने TechCrunch को एक ईमेल में कहा।

Transluce की सह-संस्थापक सारा श्वेटमैन ने उल्लेख किया कि o3 की भ्रम दर इसकी व्यावहारिक उपयोगिता को कम कर सकती है।

कियान कटानफोरोश, स्टैनफोर्ड के सहायक प्रोफेसर और Workera के सीईओ, ने TechCrunch को बताया कि उनकी टीम ने o3 को कोडिंग वर्कफ्लो के लिए बेहतर पाया, लेकिन यह टूटे हुए वेबसाइट लिंक उत्पन्न करने की प्रवृत्ति रखता है।

हालांकि भ्रम रचनात्मक विचारों को प्रेरित कर सकते हैं, लेकिन वे कानून जैसे उद्योगों के लिए चुनौतियां पेश करते हैं, जहां सटीकता महत्वपूर्ण है और दस्तावेजों में त्रुटियां अस्वीकार्य हैं।

वेब खोज क्षमताओं को एकीकृत करना सटीकता में सुधार के लिए वादा दिखाता है। OpenAI का GPT-4o वेब खोज के साथ SimpleQA पर 90% सटीकता प्राप्त करता है, जो तर्क मॉडलों में भ्रम को कम करने की संभावना का सुझाव देता है जब उपयोगकर्ता तृतीय-पक्ष खोज पहुंच की अनुमति देते हैं।

यदि तर्क मॉडलों का स्केलिंग भ्रम को बढ़ाता रहता है, तो समाधान ढूंढना तेजी से महत्वपूर्ण हो जाएगा।

“मॉडल की सटीकता और विश्वसनीयता में सुधार हमारी चल रही शोध का एक प्रमुख फोकस है,” OpenAI के प्रवक्ता निको फेलिक्स ने TechCrunch को एक ईमेल में कहा।

AI उद्योग ने हाल ही में तर्क मॉडलों की ओर रुख किया है, जो व्यापक कंप्यूटिंग संसाधनों की आवश्यकता के बिना प्रदर्शन को बढ़ाते हैं। हालांकि, यह बदलाव भ्रम के जोखिम को बढ़ाता प्रतीत होता है, जो एक महत्वपूर्ण चुनौती पेश करता है।

संबंधित लेख

AI शोधकर्ता की ग्रीन कार्ड अस्वीकृति ने अमेरिकी प्रतिभा प्रतिधारण पर चिंता जताई काई चेन, OpenAI में एक कनाडाई AI विशेषज्ञ, जो 12 वर्षों से अमेरिका में हैं, को ग्रीन कार्ड से वंचित कर दिया गया, ऐसा कंपनी के प्रमुख शोध वैज्ञानिक नोम ब्राउन ने बताया। X पर एक पोस्ट में, ब्राउन ने खुल

वाशिंगटन पोस्ट ने ओपनएआई के साथ साझेदारी करके चैटजीपीटी के माध्यम से समाचार पहुंच को बढ़ाया वाशिंगटन पोस्ट और OpenAI ने एक “रणनीतिक साझेदारी” की घोषणा की है ताकि “चैटजीपीटी के माध्यम से विश्वसनीय समाचारों तक पहुंच का विस्तार किया जा सके,” जैसा कि वाशिंगटन पोस्ट के प्रेस विज्ञप्ति में कहा गया

OpenAI अपनी गैर-लाभकारी जड़ों की पुन: पुष्टि करता है प्रमुख कॉर्पोरेट पुनर्गठन में OpenAI अपनी गैर-लाभकारी मिशन में दृढ़ रहता है क्योंकि यह एक महत्वपूर्ण कॉर्पोरेट पुनर्गठन से गुजर रहा है, विकास को नैतिक AI विकास के प्रति अपनी प्रतिबद्धता के साथ संतुलित करता है।सीईओ सैम ऑल्टमैन ने क

सूचना (0)

0/200

जमा करना

शीर्ष समाचार

GEMINI 2.5 प्रो अब असीमित और सस्ता क्लाउड की तुलना में सस्ता, GPT-4O 2025 के शीर्ष AI वीडियो जनरेटर: Pika Labs बनाम विकल्प Openai बेहतर चैट के लिए AI वॉयस असिस्टेंट को बढ़ाता है एआई कंप्यूटिंग 2026 तक कई एनवाईसीएस की शक्ति का उपभोग करने के लिए, संस्थापक कहते हैं नोटबुकलम विश्व स्तर पर फैलता है, स्लाइड जोड़ता है और तथ्य-जाँच में वृद्धि करता है एनवीडिया के सीईओ ने दीपसेक के बाजार प्रभाव पर गलतफहमी को स्पष्ट किया एआई-संचालित I/O क्रॉसवर्ड का अनुभव करें: क्लासिक वर्ड गेम पर एक आधुनिक मोड़ यूएस डेटा सेंटर के लिए ट्वीक्स 76 GW नई बिजली क्षमता को अनलॉक कर सकते हैं 2025 में शिक्षा रूब्रिक डिज़ाइन को क्रांतिकारी बनाने वाला GenAI AI वोइस क्लोनिंग: वोइस कनवर्सन में पकड़ हासिल करने का अंतिम गाइड

अधिक

प्रदर्शित