Gaia führt einen neuen Benchmark in der Suche nach wahrer Intelligenz jenseits von Arc-Agi ein
Intelligenz ist überall, aber das Messen Sie es genau so, als würde man versuchen, eine Wolke mit bloßen Händen zu fangen. Wir verwenden Tests und Benchmarks wie College -Aufnahmeprüfungen, um eine grobe Idee zu bekommen. Jedes Jahr drehen die Schüler für diese Tests und erzielen manchmal sogar eine perfekte 100%. Aber bedeutet diese perfekte Punktzahl, dass sie alle die gleiche Intelligenz besitzen oder den Höhepunkt ihres geistigen Potenzials erreicht haben? Natürlich nicht. Diese Benchmarks sind nur grobe Schätzungen, nicht genaue Indikatoren für die wahren Fähigkeiten eines Menschen.
In der Welt der generativen KI waren Benchmarks wie MMLU (massives Multitasking-Sprachverständnis) die Anlaufstelle für die Beurteilung von Modellen durch Multiple-Choice-Fragen in verschiedenen akademischen Bereichen. Während sie einfache Vergleiche ermöglichen, erfassen sie nicht wirklich das gesamte Spektrum intelligenter Funktionen.
Nehmen Sie beispielsweise Claude 3.5 Sonett und GPT-4,5. Sie könnten ähnlich auf MMLU punkten, was darauf hindeutet, dass sie auf dem Parlament sind. Aber jeder, der diese Modelle tatsächlich verwendet hat, weiß, dass seine reale Leistung ganz anders sein kann.
Was bedeutet es, "Intelligenz" in AI zu messen?
Mit der jüngsten Einführung des ARC-Agi-Benchmarks, mit dem Modelle auf allgemeinem Denken und kreativer Problemlösung getestet werden sollen, wurde eine neue Diskussionswelle darüber gegeben, was es bedeutet, "Intelligenz" in AI zu messen. Noch nicht jeder hatte die Chance, in ARC-Agi einzutauchen, aber die Branche summt über diese und andere neue Ansätze zum Testen. Jeder Benchmark hat seinen Platz und Arc-Agi ist ein Schritt in die richtige Richtung.
Eine weitere aufregende Entwicklung ist die letzte Prüfung der Menschheit, ein umfassender Benchmark mit 3.000 von Experten begutachteten, mehrstufigen Fragen, die verschiedene Disziplinen umfassen. Es ist eine ehrgeizige Anstrengung, KI-Systeme auf Expertenebene zu bringen. Frühe Ergebnisse zeigen einen schnellen Fortschritt, und OpenAI erzielte Berichten zufolge nur einen Monat nach seiner Veröffentlichung eine Punktzahl von 26,6%. Aber wie andere Benchmarks konzentriert es sich hauptsächlich auf Wissen und Argumentation in einem Vakuum, nicht auf die praktischen Fähigkeiten, die für KI-Anwendungen realer Welt von entscheidender Bedeutung sind.
Nehmen wir zum Beispiel, wie einige Top -Modelle mit einfachen Aufgaben wie dem Zählen der "R" S in "Strawberry" oder dem Vergleich von 3.8 bis 3.1111 zu kämpfen haben. Diese Fehler, die sogar ein Kind oder ein grundlegender Taschenrechner vermeiden könnten, unterstreichen die Lücke zwischen Benchmark-Erfolg und realer Zuverlässigkeit. Es ist eine Erinnerung daran, dass Intelligenz nicht nur um Acing -Tests geht. Es geht darum, die allgemeine Logik mit Leichtigkeit zu navigieren.

Der neue Standard für die Messung der KI -Fähigkeit
Während sich die KI -Modelle entwickelt haben, sind die Grenzen traditioneller Benchmarks offensichtlicher geworden. Zum Beispiel beträgt GPT-4 trotz seiner hohen Punktzahlen bei Multiple-Choice-Tests, wenn sie mit Tools mit Werkzeugen ausgestattet sind, nur etwa 15% für die komplexeren realen Aufgaben in der Gaia-Benchmark.
Diese Diskrepanz zwischen der Benchmark -Leistung und der praktischen Fähigkeit wird zunehmend problematisch, da die KI -Systeme von Forschungslabors zu Geschäftsanwendungen wechseln. Traditionelle Benchmarks testen, wie gut ein Modell Informationen erinnern kann, übersehen jedoch häufig wichtige Aspekte der Intelligenz, z.
Geben Sie Gaia ein, einen neuen Benchmark, der eine signifikante Verschiebung der AI -Bewertung markiert. GAIA wurde durch eine Zusammenarbeit zwischen Teams aus Meta-Fair, Meta-Genai, Huggingface und Autogpt entwickelt und umfasst 466 sorgfältig gefertigte Fragen über drei Schwierigkeitsgrade. Diese Fragen testen eine breite Palette von Fähigkeiten, die für AI-Anwendungen in realer Welt wesentlich sind, einschließlich Webbrowsing, multimodales Verständnis, Codeausführung, Dateibehandlung und komplexes Denken.
Level 1 -Fragen erfordern normalerweise 5 Schritte und ein Werkzeug, mit dem Menschen gelöst werden können. Level 2 -Fragen benötigen 5 bis 10 Schritte und mehrere Tools, während die Fragen der Stufe 3 bis zu 50 Schritte und einer beliebigen Anzahl von Tools erfordern. Diese Struktur spiegelt die Komplexität der tatsächlichen Geschäftsprobleme wider, bei denen Lösungen häufig mehrere Aktionen und Tools beinhalten.
Durch die Konzentration auf Flexibilität und nicht nur auf Komplexität erreichte ein KI-Modell eine Genauigkeitsrate von 75%für Gaia, die Outperformance der Branchenführer wie Microsofts Magnetic-1 (38%) und den Langfun-Agenten von Google (49%). Dieser Erfolg ergibt sich aus der Verwendung einer Mischung spezialisierter Modelle für audiovisuelles Verständnis und Argumentation, wobei das Sonnet 3.5 von Anthropic als Hauptmodell.
Diese Verschiebung der AI -Bewertung spiegelt einen breiteren Trend in der Branche wider: Wir bewegen uns von eigenständigen SaaS -Anwendungen in Richtung KI -Agenten, die mehrere Tools und Workflows verwalten können. Da Unternehmen zunehmend von KI abhängen, um komplexe, mehrstufige Aufgaben zu bekämpfen, bieten Benchmarks wie Gaia ein relevanteres Maß für die Fähigkeit als herkömmliche Multiple-Choice-Tests.
In der Zukunft der AI -Bewertung geht es nicht um isolierte Wissenstests. Es geht um umfassende Bewertungen der Fähigkeit zur Problemlösung. Gaia setzt einen neuen Benchmark für die Messung der KI-Fähigkeiten-eine, die besser mit den realen Herausforderungen und Möglichkeiten des KI-Einsatzes übereinstimmt.
Sri Ambati ist der Gründer und CEO von H2O.ai.
Verwandter Artikel
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快
谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅
深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』
微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
Kommentare (0)
0/200
Intelligenz ist überall, aber das Messen Sie es genau so, als würde man versuchen, eine Wolke mit bloßen Händen zu fangen. Wir verwenden Tests und Benchmarks wie College -Aufnahmeprüfungen, um eine grobe Idee zu bekommen. Jedes Jahr drehen die Schüler für diese Tests und erzielen manchmal sogar eine perfekte 100%. Aber bedeutet diese perfekte Punktzahl, dass sie alle die gleiche Intelligenz besitzen oder den Höhepunkt ihres geistigen Potenzials erreicht haben? Natürlich nicht. Diese Benchmarks sind nur grobe Schätzungen, nicht genaue Indikatoren für die wahren Fähigkeiten eines Menschen.
In der Welt der generativen KI waren Benchmarks wie MMLU (massives Multitasking-Sprachverständnis) die Anlaufstelle für die Beurteilung von Modellen durch Multiple-Choice-Fragen in verschiedenen akademischen Bereichen. Während sie einfache Vergleiche ermöglichen, erfassen sie nicht wirklich das gesamte Spektrum intelligenter Funktionen.
Nehmen Sie beispielsweise Claude 3.5 Sonett und GPT-4,5. Sie könnten ähnlich auf MMLU punkten, was darauf hindeutet, dass sie auf dem Parlament sind. Aber jeder, der diese Modelle tatsächlich verwendet hat, weiß, dass seine reale Leistung ganz anders sein kann.
Was bedeutet es, "Intelligenz" in AI zu messen?
Mit der jüngsten Einführung des ARC-Agi-Benchmarks, mit dem Modelle auf allgemeinem Denken und kreativer Problemlösung getestet werden sollen, wurde eine neue Diskussionswelle darüber gegeben, was es bedeutet, "Intelligenz" in AI zu messen. Noch nicht jeder hatte die Chance, in ARC-Agi einzutauchen, aber die Branche summt über diese und andere neue Ansätze zum Testen. Jeder Benchmark hat seinen Platz und Arc-Agi ist ein Schritt in die richtige Richtung.
Eine weitere aufregende Entwicklung ist die letzte Prüfung der Menschheit, ein umfassender Benchmark mit 3.000 von Experten begutachteten, mehrstufigen Fragen, die verschiedene Disziplinen umfassen. Es ist eine ehrgeizige Anstrengung, KI-Systeme auf Expertenebene zu bringen. Frühe Ergebnisse zeigen einen schnellen Fortschritt, und OpenAI erzielte Berichten zufolge nur einen Monat nach seiner Veröffentlichung eine Punktzahl von 26,6%. Aber wie andere Benchmarks konzentriert es sich hauptsächlich auf Wissen und Argumentation in einem Vakuum, nicht auf die praktischen Fähigkeiten, die für KI-Anwendungen realer Welt von entscheidender Bedeutung sind.
Nehmen wir zum Beispiel, wie einige Top -Modelle mit einfachen Aufgaben wie dem Zählen der "R" S in "Strawberry" oder dem Vergleich von 3.8 bis 3.1111 zu kämpfen haben. Diese Fehler, die sogar ein Kind oder ein grundlegender Taschenrechner vermeiden könnten, unterstreichen die Lücke zwischen Benchmark-Erfolg und realer Zuverlässigkeit. Es ist eine Erinnerung daran, dass Intelligenz nicht nur um Acing -Tests geht. Es geht darum, die allgemeine Logik mit Leichtigkeit zu navigieren.
Der neue Standard für die Messung der KI -Fähigkeit
Während sich die KI -Modelle entwickelt haben, sind die Grenzen traditioneller Benchmarks offensichtlicher geworden. Zum Beispiel beträgt GPT-4 trotz seiner hohen Punktzahlen bei Multiple-Choice-Tests, wenn sie mit Tools mit Werkzeugen ausgestattet sind, nur etwa 15% für die komplexeren realen Aufgaben in der Gaia-Benchmark.
Diese Diskrepanz zwischen der Benchmark -Leistung und der praktischen Fähigkeit wird zunehmend problematisch, da die KI -Systeme von Forschungslabors zu Geschäftsanwendungen wechseln. Traditionelle Benchmarks testen, wie gut ein Modell Informationen erinnern kann, übersehen jedoch häufig wichtige Aspekte der Intelligenz, z.
Geben Sie Gaia ein, einen neuen Benchmark, der eine signifikante Verschiebung der AI -Bewertung markiert. GAIA wurde durch eine Zusammenarbeit zwischen Teams aus Meta-Fair, Meta-Genai, Huggingface und Autogpt entwickelt und umfasst 466 sorgfältig gefertigte Fragen über drei Schwierigkeitsgrade. Diese Fragen testen eine breite Palette von Fähigkeiten, die für AI-Anwendungen in realer Welt wesentlich sind, einschließlich Webbrowsing, multimodales Verständnis, Codeausführung, Dateibehandlung und komplexes Denken.
Level 1 -Fragen erfordern normalerweise 5 Schritte und ein Werkzeug, mit dem Menschen gelöst werden können. Level 2 -Fragen benötigen 5 bis 10 Schritte und mehrere Tools, während die Fragen der Stufe 3 bis zu 50 Schritte und einer beliebigen Anzahl von Tools erfordern. Diese Struktur spiegelt die Komplexität der tatsächlichen Geschäftsprobleme wider, bei denen Lösungen häufig mehrere Aktionen und Tools beinhalten.
Durch die Konzentration auf Flexibilität und nicht nur auf Komplexität erreichte ein KI-Modell eine Genauigkeitsrate von 75%für Gaia, die Outperformance der Branchenführer wie Microsofts Magnetic-1 (38%) und den Langfun-Agenten von Google (49%). Dieser Erfolg ergibt sich aus der Verwendung einer Mischung spezialisierter Modelle für audiovisuelles Verständnis und Argumentation, wobei das Sonnet 3.5 von Anthropic als Hauptmodell.
Diese Verschiebung der AI -Bewertung spiegelt einen breiteren Trend in der Branche wider: Wir bewegen uns von eigenständigen SaaS -Anwendungen in Richtung KI -Agenten, die mehrere Tools und Workflows verwalten können. Da Unternehmen zunehmend von KI abhängen, um komplexe, mehrstufige Aufgaben zu bekämpfen, bieten Benchmarks wie Gaia ein relevanteres Maß für die Fähigkeit als herkömmliche Multiple-Choice-Tests.
In der Zukunft der AI -Bewertung geht es nicht um isolierte Wissenstests. Es geht um umfassende Bewertungen der Fähigkeit zur Problemlösung. Gaia setzt einen neuen Benchmark für die Messung der KI-Fähigkeiten-eine, die besser mit den realen Herausforderungen und Möglichkeiten des KI-Einsatzes übereinstimmt.
Sri Ambati ist der Gründer und CEO von H2O.ai.












