ガイアは、Arc-Agiを超えた真の知性を求めて新しいベンチマークを紹介します
2025年5月2日
MatthewCarter
0
知性はどこにでもありますが、それを正確に測定することは、素手で雲をつかもうとしているように感じます。大まかなアイデアを得るために、大学の入学試験などのテストとベンチマークを使用しています。毎年、学生はこれらのテストのために詰め込み、時には完璧な100%を獲得します。しかし、その完全なスコアは、彼らがすべて同じレベルの知性を持っていること、または彼らが彼らの精神的可能性のピークに達したことを意味しますか?もちろん違います。これらのベンチマークは、誰かの真の能力の正確な指標ではなく、大まかな推定値です。
生成AIの世界では、MMLU(大規模なマルチタスク言語の理解)などのベンチマークが、さまざまな学術分野での複数選択の質問を通じてモデルを評価するための頼りになりました。それらは簡単な比較を可能にしますが、インテリジェントな機能の全範囲を実際にキャプチャしません。
たとえば、Claude 3.5 SonnetとGPT-4.5を取ります。彼らはMMLUで同様に得点するかもしれませんが、彼らは標準的であることを示唆しています。しかし、実際にこれらのモデルを使用した人は誰でも、実際のパフォーマンスがまったく異なる場合があることを知っています。
AIで「知性」を測定するとはどういう意味ですか?
一般的な推論と創造的な問題解決に関するモデルをテストするように設計されたARC-AGIベンチマークの最近の発売により、AIの「知性」を測定することの意味についての新たな議論がありました。誰もがまだARC-AGIに飛び込む機会がなかったわけではありませんが、業界はこのテストへの他の新しいアプローチについて賑やかです。すべてのベンチマークにはその場所があり、ARC-AGIは正しい方向への一歩です。
もう1つのエキサイティングな開発は、「人類の最後の試験」です。これは、さまざまな分野にまたがる3,000のピアレビューされたマルチステップの質問を含む包括的なベンチマークです。 AIシステムを専門家レベルの推論にプッシュすることは野心的な努力です。早期の結果は急速な進歩を示しており、伝えられるところによると、Openaiはリリースからわずか1か月後に26.6%のスコアに達したと伝えられています。しかし、他のベンチマークと同様に、実際のAIアプリケーションにとって不可欠な実用的なツール使用スキルではなく、主に真空中の知識と推論に焦点を当てています。
たとえば、一部のトップモデルは、「r」を「ストロベリー」の「R」をカウントしたり、3.8と3.1111を比較したりするなどの単純なタスクとどのように苦労しているかを考えてみましょう。子供や基本的な計算機でさえ避けることができるこれらのエラーは、ベンチマークの成功と現実世界の信頼性の間のギャップを強調しています。インテリジェンスがアーステストだけではないことを思い出させてくれます。それは、毎日のロジックを簡単にナビゲートすることです。

AI機能を測定するための新しい標準
AIモデルが進化するにつれて、従来のベンチマークの限界がより明確になりました。たとえば、GPT-4は、ツールを装備している場合、複数選択テストでの高いスコアにもかかわらず、GAIAベンチマークのより複雑で実世界のタスクで約15%のみを獲得します。
ベンチマークのパフォーマンスと実用的な能力の間のこの矛盾は、AIシステムが研究室からビジネスアプリケーションに移行するにつれてますます問題となっています。従来のベンチマークは、モデルが情報をどの程度リコールできるかをテストしますが、多くの場合、データを収集し、コードを実行し、情報を分析し、さまざまなドメインでソリューションを作成する機能など、インテリジェンスの重要な側面を見落とします。
Gaiaは、AI評価の大幅な変化を示す新しいベンチマークです。 Gaiaは、メタフェア、メタゲナイ、ハグ、ハギングフェイス、オートグプのチーム間のコラボレーションを通じて開発され、3つの難易度レベルにわたって466の細心の注意を払って作成された質問が含まれています。これらの質問は、Webブラウジング、マルチモーダル理解、コード実行、ファイル処理、複雑な推論など、実際のAIアプリケーションに不可欠な幅広いスキルをテストします。
レベル1の質問には、通常、約5ステップと、人間が解決するための1つのツールが必要です。レベル2の質問には5〜10のステップと複数のツールが必要ですが、レベル3の質問では最大50ステップと任意の数のツールが必要になる場合があります。この構造は、ソリューションに複数のアクションとツールが含まれることが多い実際のビジネス上の問題の複雑さを反映しています。
AIモデルは、単なる複雑さではなく柔軟性に焦点を当てることにより、Gaiaの75%の精度、MicrosoftのMagnetic-1(38%)やGoogleのLangfunエージェント(49%)などの業界リーダーを上回ることを達成しました。この成功は、視聴覚理解と推論のために特殊なモデルの組み合わせを使用することから、AnthropicのSonnet 3.5がメインモデルとして使用されます。
AI評価のこの変化は、業界のより広範な傾向を反映しています。私たちは、複数のツールとワークフローを管理できるAIエージェントに向けて、スタンドアロンSaaSアプリケーションから離れています。企業は、複雑なマルチステップタスクに取り組むためにAIにますます依存しているため、Gaiaのようなベンチマークは、従来の多肢選択テストよりも関連性の高い機能の尺度を提供します。
AI評価の将来は、孤立した知識テストに関するものではありません。問題解決能力の包括的な評価についてです。 Gaiaは、AI機能を測定するための新しいベンチマークを設定します。これは、AI展開の実際の課題と機会とより良く合わせるものです。
Sri Ambatiは、H2O.AIの創設者兼CEOです。
関連記事
AIスタートアップは750万ドルを確保して、アメリカの24M保護されていない中小企業の商業保険に革命をもたらします
ニューヨークに拠点を置く新興企業である1Fortは、AI駆動型プラットフォームを通じて中小企業が商業保険を保護する方法に革命をもたらすために、750万ドルのシード資金調達を確保しました。 2024年の月ごとの驚異的な月の収益の増加により、1フォートは時代遅れの手動プロセスをオーバーホールするように設定されています
MetaはLlama 4リリースを擁護し、バグを混合品質レポートの原因として引用します
週末に、Facebook、Instagram、WhatsApp、およびQuest VRの背後にある大国であるMetaは、最新のAI言語モデルであるLlama 4を発表することで全員を驚かせました。1つだけでなく、3つの新しいバージョンが紹介され、それぞれが「混合」ArchiteCturのおかげで強化された機能を誇っています。
Googleはビジネス用のAndroid StudioでGeminiを発売し、開発者が作業アプリを設計しやすくします
Appleは依然として米国のスマートフォン市場を支配するかもしれませんが、GoogleのAndroid OSは柔軟性と手頃な価格で企業や企業を獲得しています。最近のStratixの調査では、企業デバイスの60%がAndroid Techで実行されていることが明らかになりました。そして、Googleはそこで止まっていません。彼らは設定されています
コメント (0)
0/200






知性はどこにでもありますが、それを正確に測定することは、素手で雲をつかもうとしているように感じます。大まかなアイデアを得るために、大学の入学試験などのテストとベンチマークを使用しています。毎年、学生はこれらのテストのために詰め込み、時には完璧な100%を獲得します。しかし、その完全なスコアは、彼らがすべて同じレベルの知性を持っていること、または彼らが彼らの精神的可能性のピークに達したことを意味しますか?もちろん違います。これらのベンチマークは、誰かの真の能力の正確な指標ではなく、大まかな推定値です。
生成AIの世界では、MMLU(大規模なマルチタスク言語の理解)などのベンチマークが、さまざまな学術分野での複数選択の質問を通じてモデルを評価するための頼りになりました。それらは簡単な比較を可能にしますが、インテリジェントな機能の全範囲を実際にキャプチャしません。
たとえば、Claude 3.5 SonnetとGPT-4.5を取ります。彼らはMMLUで同様に得点するかもしれませんが、彼らは標準的であることを示唆しています。しかし、実際にこれらのモデルを使用した人は誰でも、実際のパフォーマンスがまったく異なる場合があることを知っています。
AIで「知性」を測定するとはどういう意味ですか?
一般的な推論と創造的な問題解決に関するモデルをテストするように設計されたARC-AGIベンチマークの最近の発売により、AIの「知性」を測定することの意味についての新たな議論がありました。誰もがまだARC-AGIに飛び込む機会がなかったわけではありませんが、業界はこのテストへの他の新しいアプローチについて賑やかです。すべてのベンチマークにはその場所があり、ARC-AGIは正しい方向への一歩です。
もう1つのエキサイティングな開発は、「人類の最後の試験」です。これは、さまざまな分野にまたがる3,000のピアレビューされたマルチステップの質問を含む包括的なベンチマークです。 AIシステムを専門家レベルの推論にプッシュすることは野心的な努力です。早期の結果は急速な進歩を示しており、伝えられるところによると、Openaiはリリースからわずか1か月後に26.6%のスコアに達したと伝えられています。しかし、他のベンチマークと同様に、実際のAIアプリケーションにとって不可欠な実用的なツール使用スキルではなく、主に真空中の知識と推論に焦点を当てています。
たとえば、一部のトップモデルは、「r」を「ストロベリー」の「R」をカウントしたり、3.8と3.1111を比較したりするなどの単純なタスクとどのように苦労しているかを考えてみましょう。子供や基本的な計算機でさえ避けることができるこれらのエラーは、ベンチマークの成功と現実世界の信頼性の間のギャップを強調しています。インテリジェンスがアーステストだけではないことを思い出させてくれます。それは、毎日のロジックを簡単にナビゲートすることです。
AI機能を測定するための新しい標準
AIモデルが進化するにつれて、従来のベンチマークの限界がより明確になりました。たとえば、GPT-4は、ツールを装備している場合、複数選択テストでの高いスコアにもかかわらず、GAIAベンチマークのより複雑で実世界のタスクで約15%のみを獲得します。
ベンチマークのパフォーマンスと実用的な能力の間のこの矛盾は、AIシステムが研究室からビジネスアプリケーションに移行するにつれてますます問題となっています。従来のベンチマークは、モデルが情報をどの程度リコールできるかをテストしますが、多くの場合、データを収集し、コードを実行し、情報を分析し、さまざまなドメインでソリューションを作成する機能など、インテリジェンスの重要な側面を見落とします。
Gaiaは、AI評価の大幅な変化を示す新しいベンチマークです。 Gaiaは、メタフェア、メタゲナイ、ハグ、ハギングフェイス、オートグプのチーム間のコラボレーションを通じて開発され、3つの難易度レベルにわたって466の細心の注意を払って作成された質問が含まれています。これらの質問は、Webブラウジング、マルチモーダル理解、コード実行、ファイル処理、複雑な推論など、実際のAIアプリケーションに不可欠な幅広いスキルをテストします。
レベル1の質問には、通常、約5ステップと、人間が解決するための1つのツールが必要です。レベル2の質問には5〜10のステップと複数のツールが必要ですが、レベル3の質問では最大50ステップと任意の数のツールが必要になる場合があります。この構造は、ソリューションに複数のアクションとツールが含まれることが多い実際のビジネス上の問題の複雑さを反映しています。
AIモデルは、単なる複雑さではなく柔軟性に焦点を当てることにより、Gaiaの75%の精度、MicrosoftのMagnetic-1(38%)やGoogleのLangfunエージェント(49%)などの業界リーダーを上回ることを達成しました。この成功は、視聴覚理解と推論のために特殊なモデルの組み合わせを使用することから、AnthropicのSonnet 3.5がメインモデルとして使用されます。
AI評価のこの変化は、業界のより広範な傾向を反映しています。私たちは、複数のツールとワークフローを管理できるAIエージェントに向けて、スタンドアロンSaaSアプリケーションから離れています。企業は、複雑なマルチステップタスクに取り組むためにAIにますます依存しているため、Gaiaのようなベンチマークは、従来の多肢選択テストよりも関連性の高い機能の尺度を提供します。
AI評価の将来は、孤立した知識テストに関するものではありません。問題解決能力の包括的な評価についてです。 Gaiaは、AI機能を測定するための新しいベンチマークを設定します。これは、AI展開の実際の課題と機会とより良く合わせるものです。
Sri Ambatiは、H2O.AIの創設者兼CEOです。












