选项
首页
新闻
盖亚(Gaia

盖亚(Gaia

2025-05-02
98

智能无处不在,但要精确衡量它却像试图用双手抓住云彩。我们使用考试和基准测试,如大学入学考试,来大致了解情况。每年,学生们为这些考试拼命复习,有时甚至能考到满分100%。但满分是否意味着他们都拥有相同的智能水平,或者已经达到了他们的智力巅峰?当然不是。这些基准测试只是粗略的估计,并非某人真实能力的精确指标。

在生成式AI领域,MMLU(大规模多任务语言理解)等基准测试一直是评估模型的主要方式,通过跨多个学科的单选题进行测试。虽然它们便于比较,但并不能完全捕捉智能能力的全部范围。

以Claude 3.5 Sonnet和GPT-4.5为例,它们在MMLU上的得分可能相近,表明它们水平相当。但实际使用这些模型的人都知道,它们的现实表现可能大不相同。

在AI中衡量“智能”意味着什么?

随着ARC-AGI基准测试的最近推出,旨在测试模型在通用推理和创造性问题解决方面的能力,关于在AI中衡量“智能”的讨论掀起了一股新热潮。并非所有人都已经尝试过ARC-AGI,但业界对这一测试及其他新测试方法的讨论非常热烈。每个基准测试都有其价值,而ARC-AGI是朝着正确方向迈出的一步。

另一个令人兴奋的发展是“人类的最后考试”,这是一个包含3000个经过同行评审的多步骤问题的全面基准测试,涵盖不同学科。这是一个雄心勃勃的努力,旨在推动AI系统达到专家级推理水平。早期结果显示进展迅速,据报道OpenAI在发布仅一个月后就达到了26.6%的得分。但与其他基准测试一样,它主要关注知识和在真空环境中的推理,而非对现实世界AI应用至关重要的实用工具使用技能。

例如,一些顶级模型在简单任务上表现不佳,比如数“strawberry”中的“r”或比较3.8和3.1111。这些错误,即使是孩子或基本计算器都能避免,凸显了基准测试成功与现实世界可靠性之间的差距。这提醒我们,智能不仅仅是考试得高分;它还关乎轻松应对日常逻辑。

衡量AI能力的新标准

衡量AI能力的新标准

随着AI模型的发展,传统基准测试的局限性越来越明显。例如,GPT-4在配备工具时,在GAIA基准测试中更复杂的现实世界任务上仅得15%,尽管它在单选题测试中得分很高。

随着AI系统从研究实验室转向商业应用,基准测试表现与实际能力之间的差距越来越成问题。传统基准测试评估模型的知识回忆能力,但往往忽略了智能的关键方面,如收集数据、运行代码、分析信息以及跨领域创建解决方案的能力。

GAIA是一个标志着AI评估重大转变的新基准测试。由Meta-FAIR、Meta-GenAI、HuggingFace和AutoGPT团队合作开发,GAIA包含466个精心设计的跨三个难度级别的问题。这些问题测试了现实世界AI应用所需的一系列技能,包括网页浏览、多模态理解、代码执行、文件处理和复杂推理。

一级问题通常需要人类大约5个步骤和一种工具来解决。二级问题需要5到10个步骤和多种工具,而三级问题可能需要多达50个步骤和任意数量的工具。这种结构反映了实际商业问题的复杂性,解决方案往往涉及多个动作和工具。

通过专注于灵活性而不仅仅是复杂性,一个AI模型在GAIA上取得了75%的准确率,超过了行业领先者,如微软的Magnetic-1(38%)和谷歌的Langfun Agent(49%)。这一成功得益于使用专门的模型进行音视频理解和推理,以Anthropic的Sonnet 3.5作为主要模型。

AI评估的这种转变反映了行业的一个更广泛趋势:我们正在从独立的SaaS应用转向能够管理多种工具和工作流程的AI代理。随着企业越来越依赖AI来处理复杂的多步骤任务,像GAIA这样的基准测试提供了比传统单选题测试更相关的能力衡量标准。

AI评估的未来不是孤立的知识测试;它是对问题解决能力的全面评估。GAIA为衡量AI能力设定了一个新基准——一个更符合AI部署现实挑战和机遇的基准。

斯里·安巴蒂是H2O.ai的创始人和首席执行官。

相关文章
TensorZero 获得 730 万美元种子基金,用于简化企业 LLM 开发 TensorZero 获得 730 万美元种子基金,用于简化企业 LLM 开发 新兴的人工智能应用开源基础设施提供商 TensorZero 已获得 730 万美元种子轮融资,由 FirstMark Capital 领投,Bessemer Venture Partners、Bedrock、DRW、Coalition 和众多行业天使投资人跟投。TensorZero 的 GitHub 存储库获得了全球 "第一趋势 "地位,近几个月来,其星级数从 3,000 个增至 9,700
Replit 首席执行官预测软件未来: Replit 首席执行官预测软件未来:"代理一路下滑 协作式人工智能开发平台能否让企业摆脱昂贵的 SaaS 订购?Replit 公司富有远见的首席执行官阿姆贾德-马萨德(Amjad Masad)认为这种转变已经开始,他描述了一个 "代理以递归方式处理一切事务 "的生态系统。在 VB Transform 主题演讲中,Masad 演示了 Replit 的人工智能代理如何让非技术用户在短短 15 分钟内开发出功能齐全的投票应用程序--通过简单的文本提示自动
OpenAI 将 ChatGPT Pro 升级到 o3,提升 200 美元月费的价值 OpenAI 将 ChatGPT Pro 升级到 o3,提升 200 美元月费的价值 本周,微软(Microsoft)、谷歌(Google)和人类学(Anthropic)等科技巨头都发布了重要的人工智能发展成果。OpenAI 以自己的突破性更新结束了这一轮的公告发布--除了高调斥资 65 亿美元收购 Jony Ive 的设计公司,还推出了代号为 "io "的雄心勃勃的硬件计划。公司大幅增强了 ChatGPT 中的 Operator 自主网络导航系统,从以前的 GPT-4o 框架过渡
评论 (2)
0/200
BillyAdams
BillyAdams 2025-08-26 16:25:46

This GAIA benchmark sounds intriguing! Makes me wonder if we’re finally getting closer to measuring true intelligence or just chasing fancier numbers. 🤔 What’s next, AI acing philosophy exams?

GaryThomas
GaryThomas 2025-08-08 12:01:29

This GAIA benchmark sounds intriguing! 🤔 It’s like trying to measure a rainbow with a ruler—cool concept, but can it really capture true intelligence? I wonder how it compares to ARC-AGI in practical applications.

返回顶部
OR