OpenAI के o3 AI मॉडल को अंतर्निहित परीक्षण में पहले से कम स्कोर मिला

AI में बेंचमार्क विषमताएं क्यों महत्वपूर्ण हैं
AI में, संख्याएं कहानी सुनाती हैं—and कभी-कभी, ये संख्याएं वास्तविकता से कुछ अलग हो जाती हैं। उदाहरण के लिए, OpenAI के o3 मॉडल के बारे में पहले कहानी बहुत ही अद्भुत थी: o3 कहा जा रहा था कि यह लगभग 25% से अधिक FrontierMath के विशिष्ट रूप से कठिन समस्याओं को हासिल कर सकता है। संदर्भ के लिए, प्रतिद्वंद्वियों को लगभग अंकों के कुछ कम का प्रदर्शन मिला था। लेकिन वर्तमान समय में, Epoch AI—एक प्रभावशाली अनुसंधान संस्था—ने इस कथन को खराब कर दिया है। उनके अनुसंधान के अनुसार, o3 का वास्तविक प्रदर्शन लगभग 10% तक ही है। यह अच्छा है, लेकिन निश्चित रूप से OpenAI द्वारा पहले प्रस्तुत की गई वाहने वाली संख्या नहीं थी।
वास्तव में क्या हो रहा है?
इसे विचार करने पर देखें। OpenAI का पहला स्कोर संभवतः आदर्श परिस्थितियों के तहत प्राप्त किया गया था—जो कि वास्तविक दुनिया में ठीक उल्टे नहीं हो सकते। Epoch ने सुझाव दिया कि उनका परीक्षण वातावरण OpenAI के वातावरण से थोड़ा अलग हो सकता है, और उन्होंने भी FrontierMath का एक नया संस्करण इस्तेमाल किया था। यह नहीं कहता कि OpenAI ने सीधे झूठे अपार्टी की, उनके प्रारंभिक कथनों ने अंदरोंदर की परीक्षणों के साथ संगति रखी थी, लेकिन इस विषमता ने एक बड़ी समस्या को प्रदर्शित किया। बेंचमार्क अक्सर एक-दूसरे के साथ सीधे तुलना नहीं कर सकते हैं। और चलो सच कहें, कंपनियां अपनी सबसे बेहतरीन प्रदर्शन को प्रदर्शित करने के लिए उत्सुक होती हैं।
तौलीनेस की भूमिका
इस स्थिति ने एक महत्वपूर्ण प्रश्न उठाया है: AI कंपनियों को परिणाम शेयर करते समय कितना तौलीनेस करना चाहिए? जबकि OpenAI ने सीधे झूठा नहीं बोला, उनका संदेश उम्मीदों को निरंतर करने पर जोर दिया था जो पूरी तरह से पूरा नहीं हुआ। यह एक असंतुलित संतुलन है। कंपनियां अपनी उन्नतियों को दिखाना चाहती हैं, लेकिन वे भी ये सच्चाई समझानी चाहिए कि ये संख्याएं क्या वास्तव में कहती हैं। जैसे-जैसे AI दैनिक जीवन में अधिक व्यापक रूप से शामिल हो रहा है, उपभोक्ताओं और शोधकर्ताओं दोनों की जानकारी के लिए स्पष्टता की आवश्यकता होगी।
उद्योग में अन्य विवाद
बेंचमार्किंग की त्रुटियां OpenAI के लिए ही नहीं हैं। AI स्पेस में अन्य खिताबदारों को भी समान जांच करनी पड़ी है। जनवरी में, Epoch को OpenAI से गुप्त वित्तीय सहायता प्राप्त करने के बाद जल्दी में जल्दी गिर गया था। तब एलन मस्क के xAI ने भी संदेह किया कि उन्होंने अपने बेंचमार्क चार्ट को तकनीकी रूप से बदल कर Grok 3 को अधिक अच्छा दिखाने का प्रयास किया। यहां तक कि Meta, एक टेक्नोलॉजी विशाल शक्ति, ने हाल ही में अपने प्रदर्शन को
संबंधित लेख
OpenAI升級其Operator Agent的AI模型
OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
Ziff Davis指控OpenAI涉嫌侵權
Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
訪問OpenAI API中的未來AI模型可能需要驗證身份
OpenAI 推出「已驗證組織」計劃以獲取進階人工智慧訪問權上週,OpenAI 宣布對其開發者政策進行重大更新,推出了新的驗證過程稱為「已驗證組織」。此舉旨在增強安全性並確保公司最進階的人工智慧模型和工具得到負責的使用。雖然該計劃代表著更廣泛的可用性,但它也表明了 OpenAI 認識到管理與日益強大的人工智慧技術相關潛在風險的方式發生了變化。根據 OpenA
सूचना (0)
0/200
AI में बेंचमार्क विषमताएं क्यों महत्वपूर्ण हैं
AI में, संख्याएं कहानी सुनाती हैं—and कभी-कभी, ये संख्याएं वास्तविकता से कुछ अलग हो जाती हैं। उदाहरण के लिए, OpenAI के o3 मॉडल के बारे में पहले कहानी बहुत ही अद्भुत थी: o3 कहा जा रहा था कि यह लगभग 25% से अधिक FrontierMath के विशिष्ट रूप से कठिन समस्याओं को हासिल कर सकता है। संदर्भ के लिए, प्रतिद्वंद्वियों को लगभग अंकों के कुछ कम का प्रदर्शन मिला था। लेकिन वर्तमान समय में, Epoch AI—एक प्रभावशाली अनुसंधान संस्था—ने इस कथन को खराब कर दिया है। उनके अनुसंधान के अनुसार, o3 का वास्तविक प्रदर्शन लगभग 10% तक ही है। यह अच्छा है, लेकिन निश्चित रूप से OpenAI द्वारा पहले प्रस्तुत की गई वाहने वाली संख्या नहीं थी।
वास्तव में क्या हो रहा है?
इसे विचार करने पर देखें। OpenAI का पहला स्कोर संभवतः आदर्श परिस्थितियों के तहत प्राप्त किया गया था—जो कि वास्तविक दुनिया में ठीक उल्टे नहीं हो सकते। Epoch ने सुझाव दिया कि उनका परीक्षण वातावरण OpenAI के वातावरण से थोड़ा अलग हो सकता है, और उन्होंने भी FrontierMath का एक नया संस्करण इस्तेमाल किया था। यह नहीं कहता कि OpenAI ने सीधे झूठे अपार्टी की, उनके प्रारंभिक कथनों ने अंदरोंदर की परीक्षणों के साथ संगति रखी थी, लेकिन इस विषमता ने एक बड़ी समस्या को प्रदर्शित किया। बेंचमार्क अक्सर एक-दूसरे के साथ सीधे तुलना नहीं कर सकते हैं। और चलो सच कहें, कंपनियां अपनी सबसे बेहतरीन प्रदर्शन को प्रदर्शित करने के लिए उत्सुक होती हैं।
तौलीनेस की भूमिका
इस स्थिति ने एक महत्वपूर्ण प्रश्न उठाया है: AI कंपनियों को परिणाम शेयर करते समय कितना तौलीनेस करना चाहिए? जबकि OpenAI ने सीधे झूठा नहीं बोला, उनका संदेश उम्मीदों को निरंतर करने पर जोर दिया था जो पूरी तरह से पूरा नहीं हुआ। यह एक असंतुलित संतुलन है। कंपनियां अपनी उन्नतियों को दिखाना चाहती हैं, लेकिन वे भी ये सच्चाई समझानी चाहिए कि ये संख्याएं क्या वास्तव में कहती हैं। जैसे-जैसे AI दैनिक जीवन में अधिक व्यापक रूप से शामिल हो रहा है, उपभोक्ताओं और शोधकर्ताओं दोनों की जानकारी के लिए स्पष्टता की आवश्यकता होगी।
उद्योग में अन्य विवाद
बेंचमार्किंग की त्रुटियां OpenAI के लिए ही नहीं हैं। AI स्पेस में अन्य खिताबदारों को भी समान जांच करनी पड़ी है। जनवरी में, Epoch को OpenAI से गुप्त वित्तीय सहायता प्राप्त करने के बाद जल्दी में जल्दी गिर गया था। तब एलन मस्क के xAI ने भी संदेह किया कि उन्होंने अपने बेंचमार्क चार्ट को तकनीकी रूप से बदल कर Grok 3 को अधिक अच्छा दिखाने का प्रयास किया। यहां तक कि Meta, एक टेक्नोलॉजी विशाल शक्ति, ने हाल ही में अपने प्रदर्शन को












