选项
首页
新闻
盖亚(Gaia

盖亚(Gaia

2025-05-02
83

智能无处不在,但要精确衡量它却像试图用双手抓住云彩。我们使用考试和基准测试,如大学入学考试,来大致了解情况。每年,学生们为这些考试拼命复习,有时甚至能考到满分100%。但满分是否意味着他们都拥有相同的智能水平,或者已经达到了他们的智力巅峰?当然不是。这些基准测试只是粗略的估计,并非某人真实能力的精确指标。

在生成式AI领域,MMLU(大规模多任务语言理解)等基准测试一直是评估模型的主要方式,通过跨多个学科的单选题进行测试。虽然它们便于比较,但并不能完全捕捉智能能力的全部范围。

以Claude 3.5 Sonnet和GPT-4.5为例,它们在MMLU上的得分可能相近,表明它们水平相当。但实际使用这些模型的人都知道,它们的现实表现可能大不相同。

在AI中衡量“智能”意味着什么?

随着ARC-AGI基准测试的最近推出,旨在测试模型在通用推理和创造性问题解决方面的能力,关于在AI中衡量“智能”的讨论掀起了一股新热潮。并非所有人都已经尝试过ARC-AGI,但业界对这一测试及其他新测试方法的讨论非常热烈。每个基准测试都有其价值,而ARC-AGI是朝着正确方向迈出的一步。

另一个令人兴奋的发展是“人类的最后考试”,这是一个包含3000个经过同行评审的多步骤问题的全面基准测试,涵盖不同学科。这是一个雄心勃勃的努力,旨在推动AI系统达到专家级推理水平。早期结果显示进展迅速,据报道OpenAI在发布仅一个月后就达到了26.6%的得分。但与其他基准测试一样,它主要关注知识和在真空环境中的推理,而非对现实世界AI应用至关重要的实用工具使用技能。

例如,一些顶级模型在简单任务上表现不佳,比如数“strawberry”中的“r”或比较3.8和3.1111。这些错误,即使是孩子或基本计算器都能避免,凸显了基准测试成功与现实世界可靠性之间的差距。这提醒我们,智能不仅仅是考试得高分;它还关乎轻松应对日常逻辑。

衡量AI能力的新标准

衡量AI能力的新标准

随着AI模型的发展,传统基准测试的局限性越来越明显。例如,GPT-4在配备工具时,在GAIA基准测试中更复杂的现实世界任务上仅得15%,尽管它在单选题测试中得分很高。

随着AI系统从研究实验室转向商业应用,基准测试表现与实际能力之间的差距越来越成问题。传统基准测试评估模型的知识回忆能力,但往往忽略了智能的关键方面,如收集数据、运行代码、分析信息以及跨领域创建解决方案的能力。

GAIA是一个标志着AI评估重大转变的新基准测试。由Meta-FAIR、Meta-GenAI、HuggingFace和AutoGPT团队合作开发,GAIA包含466个精心设计的跨三个难度级别的问题。这些问题测试了现实世界AI应用所需的一系列技能,包括网页浏览、多模态理解、代码执行、文件处理和复杂推理。

一级问题通常需要人类大约5个步骤和一种工具来解决。二级问题需要5到10个步骤和多种工具,而三级问题可能需要多达50个步骤和任意数量的工具。这种结构反映了实际商业问题的复杂性,解决方案往往涉及多个动作和工具。

通过专注于灵活性而不仅仅是复杂性,一个AI模型在GAIA上取得了75%的准确率,超过了行业领先者,如微软的Magnetic-1(38%)和谷歌的Langfun Agent(49%)。这一成功得益于使用专门的模型进行音视频理解和推理,以Anthropic的Sonnet 3.5作为主要模型。

AI评估的这种转变反映了行业的一个更广泛趋势:我们正在从独立的SaaS应用转向能够管理多种工具和工作流程的AI代理。随着企业越来越依赖AI来处理复杂的多步骤任务,像GAIA这样的基准测试提供了比传统单选题测试更相关的能力衡量标准。

AI评估的未来不是孤立的知识测试;它是对问题解决能力的全面评估。GAIA为衡量AI能力设定了一个新基准——一个更符合AI部署现实挑战和机遇的基准。

斯里·安巴蒂是H2O.ai的创始人和首席执行官。

相关文章
Salesforce发布Slack AI数字队友对抗Microsoft Copilot Salesforce发布Slack AI数字队友对抗Microsoft Copilot Salesforce推出全新职场AI策略,在Slack对话中引入专业“数字队友”,公司于周一公布。新工具Agentforce in Slack使企业能够创建和部署任务特定AI代理,搜索职场聊天,访问公司数据,并在员工日常使用的消息平台内执行操作。“正如专业员工协作解决问题,我们的客户需要AI代理协同工作,为客户和员工解决问题,”Salesforce Slack首席产品官Rob Seaman在Ven
从互联网热潮到人工智能:避免过去科技陷阱的经验教训 从互联网热潮到人工智能:避免过去科技陷阱的经验教训 在互联网热潮期间,为公司名称加上“.com”就能使其股价飙升,即便没有客户、收入或可行的商业模式。如今,同样的狂热围绕着“人工智能”,公司急于采用这一标签以利用热潮。企业争相将“人工智能”融入其品牌、产品描述和域名。根据Domain Name Stat的数据,2024年“.ai”域名注册量同比增长77.1%,初创公司和老牌企业都争相与人工智能挂钩,无论是否具备真正的AI能力。20世纪90年代末的经
谷歌发布面向生产环境的Gemini 2.5 AI模型,挑战企业市场中的OpenAI 谷歌发布面向生产环境的Gemini 2.5 AI模型,挑战企业市场中的OpenAI 谷歌周一加码其AI战略,推出面向企业使用的先进Gemini 2.5模型,并引入成本效益更高的变体,以在价格和性能上展开竞争。这家隶属于Alphabet的公司将其旗舰AI模型——Gemini 2.5 Pro和Gemini 2.5 Flash——从测试阶段提升至全面可用,展示其在关键业务应用中的准备就绪。同时,谷歌推出了Gemini 2.5 Flash-Lite,定位为高容量任务中最具预算友好性的选择
评论 (1)
0/200
GaryThomas
GaryThomas 2025-08-08 12:01:29

This GAIA benchmark sounds intriguing! 🤔 It’s like trying to measure a rainbow with a ruler—cool concept, but can it really capture true intelligence? I wonder how it compares to ARC-AGI in practical applications.

返回顶部
OR