ガイアは、Arc-Agiを超えた真の知性を求めて新しいベンチマークを紹介します
知性はどこにでもありますが、それを正確に測定することは、素手で雲をつかもうとしているように感じます。大まかなアイデアを得るために、大学の入学試験などのテストとベンチマークを使用しています。毎年、学生はこれらのテストのために詰め込み、時には完璧な100%を獲得します。しかし、その完全なスコアは、彼らがすべて同じレベルの知性を持っていること、または彼らが彼らの精神的可能性のピークに達したことを意味しますか?もちろん違います。これらのベンチマークは、誰かの真の能力の正確な指標ではなく、大まかな推定値です。
生成AIの世界では、MMLU(大規模なマルチタスク言語の理解)などのベンチマークが、さまざまな学術分野での複数選択の質問を通じてモデルを評価するための頼りになりました。それらは簡単な比較を可能にしますが、インテリジェントな機能の全範囲を実際にキャプチャしません。
たとえば、Claude 3.5 SonnetとGPT-4.5を取ります。彼らはMMLUで同様に得点するかもしれませんが、彼らは標準的であることを示唆しています。しかし、実際にこれらのモデルを使用した人は誰でも、実際のパフォーマンスがまったく異なる場合があることを知っています。
AIで「知性」を測定するとはどういう意味ですか?
一般的な推論と創造的な問題解決に関するモデルをテストするように設計されたARC-AGIベンチマークの最近の発売により、AIの「知性」を測定することの意味についての新たな議論がありました。誰もがまだARC-AGIに飛び込む機会がなかったわけではありませんが、業界はこのテストへの他の新しいアプローチについて賑やかです。すべてのベンチマークにはその場所があり、ARC-AGIは正しい方向への一歩です。
もう1つのエキサイティングな開発は、「人類の最後の試験」です。これは、さまざまな分野にまたがる3,000のピアレビューされたマルチステップの質問を含む包括的なベンチマークです。 AIシステムを専門家レベルの推論にプッシュすることは野心的な努力です。早期の結果は急速な進歩を示しており、伝えられるところによると、Openaiはリリースからわずか1か月後に26.6%のスコアに達したと伝えられています。しかし、他のベンチマークと同様に、実際のAIアプリケーションにとって不可欠な実用的なツール使用スキルではなく、主に真空中の知識と推論に焦点を当てています。
たとえば、一部のトップモデルは、「r」を「ストロベリー」の「R」をカウントしたり、3.8と3.1111を比較したりするなどの単純なタスクとどのように苦労しているかを考えてみましょう。子供や基本的な計算機でさえ避けることができるこれらのエラーは、ベンチマークの成功と現実世界の信頼性の間のギャップを強調しています。インテリジェンスがアーステストだけではないことを思い出させてくれます。それは、毎日のロジックを簡単にナビゲートすることです。

AI機能を測定するための新しい標準
AIモデルが進化するにつれて、従来のベンチマークの限界がより明確になりました。たとえば、GPT-4は、ツールを装備している場合、複数選択テストでの高いスコアにもかかわらず、GAIAベンチマークのより複雑で実世界のタスクで約15%のみを獲得します。
ベンチマークのパフォーマンスと実用的な能力の間のこの矛盾は、AIシステムが研究室からビジネスアプリケーションに移行するにつれてますます問題となっています。従来のベンチマークは、モデルが情報をどの程度リコールできるかをテストしますが、多くの場合、データを収集し、コードを実行し、情報を分析し、さまざまなドメインでソリューションを作成する機能など、インテリジェンスの重要な側面を見落とします。
Gaiaは、AI評価の大幅な変化を示す新しいベンチマークです。 Gaiaは、メタフェア、メタゲナイ、ハグ、ハギングフェイス、オートグプのチーム間のコラボレーションを通じて開発され、3つの難易度レベルにわたって466の細心の注意を払って作成された質問が含まれています。これらの質問は、Webブラウジング、マルチモーダル理解、コード実行、ファイル処理、複雑な推論など、実際のAIアプリケーションに不可欠な幅広いスキルをテストします。
レベル1の質問には、通常、約5ステップと、人間が解決するための1つのツールが必要です。レベル2の質問には5〜10のステップと複数のツールが必要ですが、レベル3の質問では最大50ステップと任意の数のツールが必要になる場合があります。この構造は、ソリューションに複数のアクションとツールが含まれることが多い実際のビジネス上の問題の複雑さを反映しています。
AIモデルは、単なる複雑さではなく柔軟性に焦点を当てることにより、Gaiaの75%の精度、MicrosoftのMagnetic-1(38%)やGoogleのLangfunエージェント(49%)などの業界リーダーを上回ることを達成しました。この成功は、視聴覚理解と推論のために特殊なモデルの組み合わせを使用することから、AnthropicのSonnet 3.5がメインモデルとして使用されます。
AI評価のこの変化は、業界のより広範な傾向を反映しています。私たちは、複数のツールとワークフローを管理できるAIエージェントに向けて、スタンドアロンSaaSアプリケーションから離れています。企業は、複雑なマルチステップタスクに取り組むためにAIにますます依存しているため、Gaiaのようなベンチマークは、従来の多肢選択テストよりも関連性の高い機能の尺度を提供します。
AI評価の将来は、孤立した知識テストに関するものではありません。問題解決能力の包括的な評価についてです。 Gaiaは、AI機能を測定するための新しいベンチマークを設定します。これは、AI展開の実際の課題と機会とより良く合わせるものです。
Sri Ambatiは、H2O.AIの創設者兼CEOです。
関連記事
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快
谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅
深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』
微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
コメント (0)
0/200
知性はどこにでもありますが、それを正確に測定することは、素手で雲をつかもうとしているように感じます。大まかなアイデアを得るために、大学の入学試験などのテストとベンチマークを使用しています。毎年、学生はこれらのテストのために詰め込み、時には完璧な100%を獲得します。しかし、その完全なスコアは、彼らがすべて同じレベルの知性を持っていること、または彼らが彼らの精神的可能性のピークに達したことを意味しますか?もちろん違います。これらのベンチマークは、誰かの真の能力の正確な指標ではなく、大まかな推定値です。
生成AIの世界では、MMLU(大規模なマルチタスク言語の理解)などのベンチマークが、さまざまな学術分野での複数選択の質問を通じてモデルを評価するための頼りになりました。それらは簡単な比較を可能にしますが、インテリジェントな機能の全範囲を実際にキャプチャしません。
たとえば、Claude 3.5 SonnetとGPT-4.5を取ります。彼らはMMLUで同様に得点するかもしれませんが、彼らは標準的であることを示唆しています。しかし、実際にこれらのモデルを使用した人は誰でも、実際のパフォーマンスがまったく異なる場合があることを知っています。
AIで「知性」を測定するとはどういう意味ですか?
一般的な推論と創造的な問題解決に関するモデルをテストするように設計されたARC-AGIベンチマークの最近の発売により、AIの「知性」を測定することの意味についての新たな議論がありました。誰もがまだARC-AGIに飛び込む機会がなかったわけではありませんが、業界はこのテストへの他の新しいアプローチについて賑やかです。すべてのベンチマークにはその場所があり、ARC-AGIは正しい方向への一歩です。
もう1つのエキサイティングな開発は、「人類の最後の試験」です。これは、さまざまな分野にまたがる3,000のピアレビューされたマルチステップの質問を含む包括的なベンチマークです。 AIシステムを専門家レベルの推論にプッシュすることは野心的な努力です。早期の結果は急速な進歩を示しており、伝えられるところによると、Openaiはリリースからわずか1か月後に26.6%のスコアに達したと伝えられています。しかし、他のベンチマークと同様に、実際のAIアプリケーションにとって不可欠な実用的なツール使用スキルではなく、主に真空中の知識と推論に焦点を当てています。
たとえば、一部のトップモデルは、「r」を「ストロベリー」の「R」をカウントしたり、3.8と3.1111を比較したりするなどの単純なタスクとどのように苦労しているかを考えてみましょう。子供や基本的な計算機でさえ避けることができるこれらのエラーは、ベンチマークの成功と現実世界の信頼性の間のギャップを強調しています。インテリジェンスがアーステストだけではないことを思い出させてくれます。それは、毎日のロジックを簡単にナビゲートすることです。
AI機能を測定するための新しい標準
AIモデルが進化するにつれて、従来のベンチマークの限界がより明確になりました。たとえば、GPT-4は、ツールを装備している場合、複数選択テストでの高いスコアにもかかわらず、GAIAベンチマークのより複雑で実世界のタスクで約15%のみを獲得します。
ベンチマークのパフォーマンスと実用的な能力の間のこの矛盾は、AIシステムが研究室からビジネスアプリケーションに移行するにつれてますます問題となっています。従来のベンチマークは、モデルが情報をどの程度リコールできるかをテストしますが、多くの場合、データを収集し、コードを実行し、情報を分析し、さまざまなドメインでソリューションを作成する機能など、インテリジェンスの重要な側面を見落とします。
Gaiaは、AI評価の大幅な変化を示す新しいベンチマークです。 Gaiaは、メタフェア、メタゲナイ、ハグ、ハギングフェイス、オートグプのチーム間のコラボレーションを通じて開発され、3つの難易度レベルにわたって466の細心の注意を払って作成された質問が含まれています。これらの質問は、Webブラウジング、マルチモーダル理解、コード実行、ファイル処理、複雑な推論など、実際のAIアプリケーションに不可欠な幅広いスキルをテストします。
レベル1の質問には、通常、約5ステップと、人間が解決するための1つのツールが必要です。レベル2の質問には5〜10のステップと複数のツールが必要ですが、レベル3の質問では最大50ステップと任意の数のツールが必要になる場合があります。この構造は、ソリューションに複数のアクションとツールが含まれることが多い実際のビジネス上の問題の複雑さを反映しています。
AIモデルは、単なる複雑さではなく柔軟性に焦点を当てることにより、Gaiaの75%の精度、MicrosoftのMagnetic-1(38%)やGoogleのLangfunエージェント(49%)などの業界リーダーを上回ることを達成しました。この成功は、視聴覚理解と推論のために特殊なモデルの組み合わせを使用することから、AnthropicのSonnet 3.5がメインモデルとして使用されます。
AI評価のこの変化は、業界のより広範な傾向を反映しています。私たちは、複数のツールとワークフローを管理できるAIエージェントに向けて、スタンドアロンSaaSアプリケーションから離れています。企業は、複雑なマルチステップタスクに取り組むためにAIにますます依存しているため、Gaiaのようなベンチマークは、従来の多肢選択テストよりも関連性の高い機能の尺度を提供します。
AI評価の将来は、孤立した知識テストに関するものではありません。問題解決能力の包括的な評価についてです。 Gaiaは、AI機能を測定するための新しいベンチマークを設定します。これは、AI展開の実際の課題と機会とより良く合わせるものです。
Sri Ambatiは、H2O.AIの創設者兼CEOです。












