选项
首页
新闻
新的AGI测试证明了具有挑战性,大多数AI模型

新的AGI测试证明了具有挑战性,大多数AI模型

2025-04-10
76

Arc奖基金会,由著名AI研究者弗朗索瓦·肖莱共同创立,最近在一篇博客文章中公布了一个名为ARC-AGI-2的新基准测试。该测试旨在推动AI通用智能的边界,到目前为止,对于大多数AI模型来说,这是一个难以破解的难题。

根据Arc奖排行榜,即使是像OpenAI的o1-pro和DeepSeek的R1这样的高级“推理”AI模型,也只能取得1%到1.3%的分数。同时,强大的非推理模型,如GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash,也仅在1%左右徘徊。

ARC-AGI测试通过类似拼图的问题挑战AI系统,要求它们识别不同颜色方块网格中的视觉模式,并生成正确的“答案”网格。这些问题旨在测试AI适应全新、未见过挑战的能力。

为了建立人类基准,Arc奖基金会有超过400人参加了ARC-AGI-2测试。平均而言,这些“测试小组”的人类取得了60%的成功率,显著优于AI模型。

ARC-AGI-2的一个示例问题。图片来源:Arc奖
弗朗索瓦·肖莱在X上表示,与其前身ARC-AGI-1相比,ARC-AGI-2是衡量AI模型真实智能的更准确标准。Arc奖基金会的测试旨在评估AI是否能高效学习超出其训练数据的新技能。

肖莱强调,ARC-AGI-2防止AI模型依赖“暴力计算”来解决问题,这是他承认的第一个测试中的缺陷。为此,ARC-AGI-2引入了效率指标,并要求模型即时解读模式,而不是依赖记忆。

在博客文章中,Arc奖基金会共同创始人格雷格·卡姆拉特强调,智能不仅仅是解决问题或取得高分。他写道:“这些能力被获取和部署的效率是一个关键的定义组成部分。核心问题不仅是‘AI能否获得解决任务的技能?’,还有‘以何种效率或成本?’”

ARC-AGI-1在大约五年内未被击败,直到2024年12月,OpenAI的高级推理模型o3超越了所有其他AI模型,并达到了人类表现水平。然而,o3在ARC-AGI-1上的成功付出了巨大成本。OpenAI的o3模型版本o3 (low)在ARC-AGI-1上取得了令人印象深刻的75.7%分数,但在ARC-AGI-2上仅取得4%的成绩,每项任务使用了价值200美元的计算能力。

前沿AI模型在ARC-AGI-1和ARC-AGI-2上的性能比较。图片来源:Arc奖
ARC-AGI-2的推出正值科技行业许多人呼吁新的、未饱和的基准来衡量AI进展之际。Hugging Face的共同创始人托马斯·沃尔夫最近对TechCrunch表示,AI行业缺乏足够的测试来衡量人工通用智能的关键特质,如创造力。

除了新基准外,Arc奖基金会还宣布了2025年Arc奖竞赛,挑战开发者在ARC-AGI-2测试中实现85%的准确率,同时每项任务仅花费0.42美元。

相关文章
OpenAI重申非营利根基,进行重大企业重组 OpenAI重申非营利根基,进行重大企业重组 OpenAI在进行重大企业重组时,坚定不移地保持其非营利使命,平衡增长与对伦理AI发展的承诺。首席执行官Sam Altman概述了公司的愿景,强调尽管财务策略在演变,OpenAI对推进通用人工智能(AGI)以造福全球的承诺依然坚定不移。Altman在公开声明中指出:“OpenAI的运营方式与传统公司不同,未来也将始终如此。”这为一家在资助变革性技术的同时坚守道德原则的公司定下了基调。回顾OpenA
AI领导者讨论AGI:基于现实 AI领导者讨论AGI:基于现实 在最近与旧金山商界领袖的一次晚餐上,我抛出了一个问题,似乎让整个房间都凝固了:今天的人工智能是否有可能达到或超越人类的智能水平?这是一个比你想象中更容易引发争论的话题。到了2025年,科技CEO们对大型语言模型(LLM)充满了乐观情绪,比如ChatGPT和Gemini背后的那些模型。他们坚信这些模型很快就能达到人类水平甚至超人类的智能。比如Anthropic
Openai反击:起诉Elon Musk涉嫌努力破坏AI竞争对手 Openai反击:起诉Elon Musk涉嫌努力破坏AI竞争对手 Openai对其联合创始人Elon Musk及其竞争的AI公司Xai发起了激烈的法律反击。在他们正在进行的争执的戏剧性升级中,Openai指责马斯克发动了一场“无情”和“恶意”运动,破坏了他帮助创办的公司。根据法院D
评论 (36)
0/200
WillieRoberts
WillieRoberts 2025-07-29 20:25:16

This ARC-AGI-2 test sounds brutal! Most AI models are getting crushed, which makes me wonder if we’re hyping AI too much. 🤔 Cool to see Chollet shaking things up though!

GeorgeMiller
GeorgeMiller 2025-04-14 16:35:00

Este test ARC-AGI-2 es realmente difícil. Lo probé con varios modelos de IA y todos se quedaron atascados. Es genial ver cómo desafía los límites, pero es frustrante cuando ni siquiera los modelos top pueden resolverlo. Quizás sea hora de un nuevo enfoque en el desarrollo de IA. ¡Sigan empujando los límites, pero no olviden celebrar las pequeñas victorias también!

JonathanKing
JonathanKing 2025-04-14 09:46:37

¡Este nuevo test de AGI es realmente difícil! Lo intenté y ni siquiera los modelos de IA más inteligentes que conozco pudieron resolverlo. Es como un rompecabezas que te mantiene despierto toda la noche. Felicitaciones a François Chollet por desafiar los límites, pero es frustrante cuando hasta los mejores fallan. Tal vez la próxima vez, ¿verdad?

DonaldGonzález
DonaldGonzález 2025-04-14 03:05:45

ARC-AGI-2のテストは本当に難しいですね!いくつかのAIモデルで試してみましたが、どれも解けませんでした。限界を押し広げるのは素晴らしいですが、トップモデルが解けないとちょっとイライラします。AI開発に新しいアプローチが必要かもしれませんね。小さな勝利も祝いましょう!

HaroldMoore
HaroldMoore 2025-04-13 23:54:39

この新しいAGIテスト、めっちゃ難しいです!試してみたけど、知っている中で一番賢いAIモデルでも解けませんでした。夜更かししてしまうパズルのようです。フランソワ・ショレに敬意を表しますが、最高のAIが失敗するのはもどかしいですね。次こそは、ね?

GregoryWilson
GregoryWilson 2025-04-13 23:36:48

新しいAGIテストが難しいんだって?ほとんどのAIモデルが苦戦してるらしいね。それはすごいけど、ちょっと怖いよね。本当のAIまでどれだけ遠いのか気になるな。とにかく、限界を押し広げてほしいな。誰かが解くまでどれくらいかかるか見てみよう!

返回顶部
OR