オプション
ニュース 新しいAGIテストは挑戦的であり、AIモデルの大部分を切り株します

新しいAGIテストは挑戦的であり、AIモデルの大部分を切り株します

発売日 発売日 2025年4月10日
著者 著者 WillPerez
ビュー ビュー 37

有名なAI研究者のフランソワ・チャレットが共同設立したARC賞財団は、最近、ブログ投稿でARC-AGI-2と呼ばれる新しいベンチマークを発表しました。このテストの目的は、AIの一般的な知性の境界を押し広げることを目的としており、これまでのところ、ほとんどのAIモデルを割るのが難しいナッツであることが証明されています。

ARC賞のリーダーボードによると、OpenaiのO1-ProやDeepSeekのR1などのADの「推論」AIモデルでさえ、1%から1.3%のスコアのみを管理しています。一方、GPT-4.5、Claude 3.7 Sonnet、Gemini 2.0 Flashなどの強力な非合理モデルは、1%マークの周りにホバリングしています。

ARC-AGIテストは、パズルのような問題でAIシステムに挑戦し、異なる色の正方形のグリッドの視覚パターンを識別し、正しい「回答」グリッドを生成する必要があります。これらの問題は、新しい目に見えない課題に適応するAIの能力をテストするように設計されています。

人間のベースラインを確立するために、ARC賞金財団は400人以上がARC-AGI-2テストを受けました。平均して、これらの人間の「パネル」は60%の成功率を達成し、AIモデルを大幅に上回りました。

ARC-AGI-2.IMAGEクレジットからのサンプル質問:ARC賞
FrançoisCholletはXを利用して、ARC-AGI-2は、その前身であるArc-Agi-1と比較して、AIモデルの真の知性のより正確な尺度であると主張しました。 ARC賞財団のテストは、AIがトレーニングデータを超えて新しいスキルを効率的に学習できるかどうかを評価するために設計されています。

Cholletは、ARC-AGI-2がAIモデルが「ブルートフォース」コンピューティングパワーに依存して問題を解決することを防ぐことを強調しました。これは、彼が最初のテストで認めた欠陥です。これに対処するために、ARC-AGI-2は効率のメトリックを導入し、記憶に頼るのではなく、モデルがその場でパターンを解釈する必要があります。

ブログの投稿で、ARC賞財団の共同設立者であるグレッグ・カムラットは、インテリジェンスが問題を解決したり、高いスコアを達成したりするだけではないと強調しました。 「これらの機能が取得および展開される効率は、重要で定義するコンポーネントです」と彼は書いています。 「尋ねられる中心的な質問は、「AIはタスクを解決するためにスキルを獲得できますか?」しかし、「効率やコストで」

ARC-AGI-1は、Openaiの高度な推論モデルであるO3が他のすべてのAIモデルを上回り、人間のパフォーマンスに合わせた2024年12月まで約5年間無敗のままでした。ただし、ARC-AGI-1でのO3の成功には多大な費用がかかりました。 ARC-AGI-1で印象的な75.7%を獲得したOpenAIのO3モデルであるO3(Low)のバージョンは、ARC-AGI-2でわずか4%しか管理していませんでした。

ARC-AGI-1およびARC-AGI-2.IMAGEクレジットでのフロンティアAIモデルのパフォーマンスの比較:ARC賞
ARC-AGI-2の導入は、ハイテク業界の多くの人がAIの進捗を測定するために新しい不飽和ベンチマークを求めているときに起こります。 Hugging Faceの共同設立者であるThomas Wolfは最近、AI業界には創造性などの人工的な一般情報の重要な特性を測定するのに十分なテストがないとTechCrunchに語った。

新しいベンチマークに加えて、ARC賞財団はARC賞2025コンテストを発表し、開発者にARC-AGI-2テストで85%の精度を達成し、タスクあたりわずか0.42ドルを費やすように挑戦しました。

関連記事
Openai स्ट्राइक्स बैक: एआई प्रतियोगी को कम करने के लिए कथित प्रयासों के लिए एलोन मस्क ने कहा Openai स्ट्राइक्स बैक: एआई प्रतियोगी को कम करने के लिए कथित प्रयासों के लिए एलोन मस्क ने कहा Openai ने अपने सह-संस्थापक, एलोन मस्क और उनकी प्रतिस्पर्धी AI कंपनी, XAI के खिलाफ एक भयंकर कानूनी पलटवार लॉन्च किया है। अपने चल रहे झगड़े के एक नाटकीय वृद्धि में, ओपनई ने कस्तूरी पर आरोप लगाया कि वह उस कंपनी को कम करने में मदद करने के लिए एक "अथक" और "दुर्भावनापूर्ण" अभियान को छेड़ने का आरोप लगाता है। अदालत के अनुसार डी
रिटर्न में तेजी लाने का कानून समझाया गया: एजीआई विकास का मार्ग रिटर्न में तेजी लाने का कानून समझाया गया: एजीआई विकास का मार्ग हाल ही में एक साक्षात्कार में, एलोन मस्क ने आर्टिफिशियल जनरल इंटेलिजेंस (एजीआई) के आगमन के लिए समयरेखा पर अपने आशावादी दृष्टिकोण को साझा किया, यह बताते हुए कि यह *"3 से 6 साल" *के रूप में जल्द ही हो सकता है। इसी तरह, Google के दीपमाइंड के सीईओ, डेमिस हसबिस ने वॉल स्ट्रीट जर्नल के फ्यूचर ऑफ एवरीथिंग फेस्टी में व्यक्त किया
एरिक श्मिट ने एजीआई मैनहट्टन प्रोजेक्ट का विरोध किया एरिक श्मिट ने एजीआई मैनहट्टन प्रोजेक्ट का विरोध किया बुधवार को जारी एक पॉलिसी पेपर में, Google के पूर्व सीईओ एरिक श्मिट ने स्केल एआई के सीईओ अलेक्जेंड्र वांग और एआई सुरक्षा निदेशक डैन हेंड्रिक के लिए सेंटर के साथ, अमेरिका के खिलाफ सलाह दी कि "अलौकिक" के साथ एआई सिस्टम विकसित करने के लिए एक मैनहट्टन प्रोजेक्ट-स्टाइल पहल शुरू की।
コメント (35)
0/200
StephenMartinez
StephenMartinez 2025年4月10日 15:27:48 GMT

The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!

StevenSanchez
StevenSanchez 2025年4月10日 15:27:48 GMT

Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!

AndrewHernández
AndrewHernández 2025年4月10日 15:27:48 GMT

Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!

BrianGarcia
BrianGarcia 2025年4月10日 15:27:48 GMT

O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!

GeorgeEvans
GeorgeEvans 2025年4月10日 15:27:48 GMT

¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!

StevenLopez
StevenLopez 2025年4月11日 0:18:46 GMT

This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?

トップに戻ります
OR