विकल्प
घर
समाचार
नया AGI परीक्षण चुनौतीपूर्ण साबित होता है, AI मॉडल के बहुमत स्टंप्स

नया AGI परीक्षण चुनौतीपूर्ण साबित होता है, AI मॉडल के बहुमत स्टंप्स

10 अप्रैल 2025
56

एआरसी प्राइज़ फाउंडेशन, प्रसिद्ध एआई शोधकर्ता फ्रांस्वा चोललेट द्वारा सह-स्थापना की गई, हाल ही में एक ब्लॉग पोस्ट में आर्क-एजीआई -2 नामक एक नए बेंचमार्क का अनावरण किया। इस परीक्षण का उद्देश्य एआई की सामान्य बुद्धि की सीमाओं को आगे बढ़ाना है, और अब तक, यह अधिकांश एआई मॉडल के लिए दरार करने के लिए एक कठिन अखरोट साबित हो रहा है।

एआरसी प्राइज़ लीडरबोर्ड के अनुसार, यहां तक ​​कि ओपनआईए के ओ 1-प्रो और डीपसेक के आर 1 जैसे एआई मॉडल भी "रीज़निंग" एआई मॉडल केवल 1% और 1.3% के बीच स्कोर का प्रबंधन कर रहे हैं। इस बीच, जीपीटी -4.5, क्लाउड 3.7 सॉनेट, और मिथुन 2.0 फ्लैश जैसे शक्तिशाली गैर-रेनिंग मॉडल 1% के आसपास मंडरा रहे हैं।

आर्क-एजीआई परीक्षण पहेली जैसी समस्याओं के साथ एआई सिस्टम को चुनौती देते हैं, उन्हें विभिन्न रंग के वर्गों के ग्रिड में दृश्य पैटर्न की पहचान करने और सही "उत्तर" ग्रिड उत्पन्न करने की आवश्यकता होती है। इन समस्याओं को नई, अनदेखी चुनौतियों के अनुकूल एआई की क्षमता का परीक्षण करने के लिए डिज़ाइन किया गया है।

एक मानव आधार रेखा स्थापित करने के लिए, एआरसी पुरस्कार फाउंडेशन में 400 से अधिक लोग एआरसी-एजीआई -2 परीक्षण लेते थे। औसतन, मनुष्यों के इन "पैनलों" ने 60% सफलता दर हासिल की, एआई मॉडल को काफी बेहतर बनाया।

ARC-AGI-2.Image क्रेडिट से एक नमूना प्रश्न: आर्क पुरस्कार
फ्रांस्वा चोललेट ने एक्स पर दावा किया कि आर्क-एजीआई -2 अपने पूर्ववर्ती, आर्क-एजीआई -1 की तुलना में एआई मॉडल की सच्ची बुद्धिमत्ता का अधिक सटीक उपाय है। एआरसी प्राइज फाउंडेशन के परीक्षणों को यह आकलन करने के लिए डिज़ाइन किया गया है कि क्या एआई अपने प्रशिक्षण डेटा से परे नए कौशल को कुशलता से सीख सकता है।

चोललेट ने जोर देकर कहा कि एआरसी-एजीआई -2 एआई मॉडल को समस्याओं को हल करने के लिए "ब्रूट फोर्स" कंप्यूटिंग पावर पर भरोसा करने से रोकता है, एक दोष जिसे उन्होंने पहले परीक्षण में स्वीकार किया। इसे संबोधित करने के लिए, एआरसी-एजीआई -2 एक दक्षता मीट्रिक का परिचय देता है और याद रखने के बजाय फ्लाई पर पैटर्न की व्याख्या करने के लिए मॉडल की आवश्यकता होती है।

एक ब्लॉग पोस्ट में, आर्क प्राइज़ फाउंडेशन के सह-संस्थापक ग्रेग काम्राद ने जोर देकर कहा कि बुद्धिमत्ता केवल समस्याओं को हल करने या उच्च स्कोर प्राप्त करने के बारे में नहीं है। उन्होंने लिखा, "जिस दक्षता के साथ उन क्षमताओं का अधिग्रहण और तैनात किया जाता है, वह एक महत्वपूर्ण, परिभाषित करने वाला घटक है," उन्होंने लिखा। "जो मुख्य प्रश्न पूछा जा रहा है वह सिर्फ नहीं है, 'क्या एआई एक कार्य को हल करने के लिए [] कौशल प्राप्त कर सकता है?" लेकिन यह भी, 'किस दक्षता या लागत पर?' "

ARC-AGI-1 दिसंबर 2024 तक लगभग पांच वर्षों तक नाबाद रहा, जब Openai के उन्नत रीज़निंग मॉडल, O3, अन्य सभी AI मॉडल को पार कर गए और मानव प्रदर्शन का मिलान किया। हालांकि, आर्क-एजीआई -1 पर ओ 3 की सफलता एक महत्वपूर्ण लागत पर आई। Openai के O3 मॉडल, O3 (LOW) का संस्करण, जिसने ARC-AGI-1 पर 75.7% प्रभावशाली स्कोर किया, केवल ARC-AGI-2 पर एक पैलेट्री 4% का प्रबंधन किया, जो प्रति कार्य $ 200 मूल्य की कम्प्यूटिंग शक्ति का उपयोग कर रहा था।

आर्क-एजीआई -1 और एआरसी-एजीआई -2.Image क्रेडिट पर फ्रंटियर एआई मॉडल प्रदर्शन की तुलना: आर्क प्राइज
एआरसी-एजीआई -2 की शुरूआत उस समय होती है जब टेक उद्योग में कई एआई प्रगति को मापने के लिए नए, असंतृप्त बेंचमार्क के लिए बुला रहे हैं। हगिंग फेस के सह-संस्थापक थॉमस वुल्फ ने हाल ही में टेकक्रंच को बताया कि एआई उद्योग में कृत्रिम सामान्य बुद्धिमत्ता के प्रमुख लक्षणों को मापने के लिए पर्याप्त परीक्षणों का अभाव है, जैसे कि रचनात्मकता।

नए बेंचमार्क के साथ-साथ, आर्क प्राइज़ फाउंडेशन ने आर्क प्राइज 2025 प्रतियोगिता की घोषणा की, डेवलपर्स को चुनौती देते हुए एआरसी-एजीआई -2 परीक्षण पर 85% सटीकता प्राप्त करने के लिए चुनौती दी, जबकि केवल $ 0.42 प्रति कार्य खर्च किया।

संबंधित लेख
AI領導者討論AGI:基於現實 AI領導者討論AGI:基於現實 在最近一次與舊金山商業領袖的晚餐上,我提出了一個似乎讓現場冷場的問題:今天的人工智能是否能達到或超越人類的智能?這是一個比你預期的更能引發爭議的話題。到了2025年,科技CEO們對像ChatGPT和Gemini背後的大型語言模型(LLM)充滿了樂觀情緒。他們相信這些模型很快就能達到人類級別甚至超人類的智能。以Anthropic的Dario Amodei為例,
Openai反擊:起訴Elon Musk涉嫌努力破壞AI競爭對手 Openai反擊:起訴Elon Musk涉嫌努力破壞AI競爭對手 Openai對其聯合創始人Elon Musk及其競爭的AI公司Xai發起了激烈的法律反擊。在他們正在進行的爭執的戲劇性升級中,Openai指責馬斯克發動了一場“無情”和“惡意”運動,破壞了他幫助創辦的公司。根據法院D
加速回報定律解釋了:AGI開發途徑 加速回報定律解釋了:AGI開發途徑 在最近的一次採訪中,埃隆·馬斯克(Elon Musk)分享了他對人工通用情報(AGI)的時間表的樂觀觀點(AGI),並指出它可能是 *“ 3至6年” *。同樣,Google DeepMind的首席執行官Demis Hassabis在《華爾街日報》的《一切事物》上表達了
सूचना (35)
StephenMartinez
StephenMartinez 10 अप्रैल 2025 12:00:00 पूर्वाह्न GMT

The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!

StevenSanchez
StevenSanchez 10 अप्रैल 2025 12:00:00 पूर्वाह्न GMT

Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!

AndrewHernández
AndrewHernández 10 अप्रैल 2025 12:00:00 पूर्वाह्न GMT

Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!

BrianGarcia
BrianGarcia 10 अप्रैल 2025 12:00:00 पूर्वाह्न GMT

O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!

GeorgeEvans
GeorgeEvans 10 अप्रैल 2025 12:00:00 पूर्वाह्न GMT

¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!

StevenLopez
StevenLopez 11 अप्रैल 2025 12:00:00 पूर्वाह्न GMT

This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?

शीर्ष समाचार
Openai बेहतर चैट के लिए AI वॉयस असिस्टेंट को बढ़ाता है एआई-संचालित I/O क्रॉसवर्ड का अनुभव करें: क्लासिक वर्ड गेम पर एक आधुनिक मोड़ एआई कंप्यूटिंग 2026 तक कई एनवाईसीएस की शक्ति का उपभोग करने के लिए, संस्थापक कहते हैं नोटबुकलम विश्व स्तर पर फैलता है, स्लाइड जोड़ता है और तथ्य-जाँच में वृद्धि करता है एनवीडिया के सीईओ ने दीपसेक के बाजार प्रभाव पर गलतफहमी को स्पष्ट किया Adobe 10 विशिष्ट AI एजेंटों का अनावरण करता है: उनके व्यावसायिक अनुप्रयोगों की खोज करें दक्षिण कोरिया स्थानीय दुकानों में दीपसेक ऐप डाउनलोड करता है चैट की ऊर्जा का उपयोग अपेक्षा से कम है Openai का O3 मॉडल संभावित रूप से अधिक महंगा है जो शुरू में विचार की तुलना में संचालित होता है नोटबुकल्म वेब स्रोत खोज सुविधा जोड़ता है
अधिक
शीर्ष पर वापस
OR