盖亚（Gaia

首页

新闻

盖亚（Gaia

2025-05-02

MatthewCarter

# nlp

智能无处不在，但要精确衡量它却像试图用双手抓住云彩。我们使用考试和基准测试，如大学入学考试，来大致了解情况。每年，学生们为这些考试拼命复习，有时甚至能考到满分100%。但满分是否意味着他们都拥有相同的智能水平，或者已经达到了他们的智力巅峰？当然不是。这些基准测试只是粗略的估计，并非某人真实能力的精确指标。

在生成式AI领域，MMLU（大规模多任务语言理解）等基准测试一直是评估模型的主要方式，通过跨多个学科的单选题进行测试。虽然它们便于比较，但并不能完全捕捉智能能力的全部范围。

以Claude 3.5 Sonnet和GPT-4.5为例，它们在MMLU上的得分可能相近，表明它们水平相当。但实际使用这些模型的人都知道，它们的现实表现可能大不相同。

在AI中衡量“智能”意味着什么？

随着ARC-AGI基准测试的最近推出，旨在测试模型在通用推理和创造性问题解决方面的能力，关于在AI中衡量“智能”的讨论掀起了一股新热潮。并非所有人都已经尝试过ARC-AGI，但业界对这一测试及其他新测试方法的讨论非常热烈。每个基准测试都有其价值，而ARC-AGI是朝着正确方向迈出的一步。

另一个令人兴奋的发展是“人类的最后考试”，这是一个包含3000个经过同行评审的多步骤问题的全面基准测试，涵盖不同学科。这是一个雄心勃勃的努力，旨在推动AI系统达到专家级推理水平。早期结果显示进展迅速，据报道OpenAI在发布仅一个月后就达到了26.6%的得分。但与其他基准测试一样，它主要关注知识和在真空环境中的推理，而非对现实世界AI应用至关重要的实用工具使用技能。

例如，一些顶级模型在简单任务上表现不佳，比如数“strawberry”中的“r”或比较3.8和3.1111。这些错误，即使是孩子或基本计算器都能避免，凸显了基准测试成功与现实世界可靠性之间的差距。这提醒我们，智能不仅仅是考试得高分；它还关乎轻松应对日常逻辑。

衡量AI能力的新标准

随着AI模型的发展，传统基准测试的局限性越来越明显。例如，GPT-4在配备工具时，在GAIA基准测试中更复杂的现实世界任务上仅得15%，尽管它在单选题测试中得分很高。

随着AI系统从研究实验室转向商业应用，基准测试表现与实际能力之间的差距越来越成问题。传统基准测试评估模型的知识回忆能力，但往往忽略了智能的关键方面，如收集数据、运行代码、分析信息以及跨领域创建解决方案的能力。

GAIA是一个标志着AI评估重大转变的新基准测试。由Meta-FAIR、Meta-GenAI、HuggingFace和AutoGPT团队合作开发，GAIA包含466个精心设计的跨三个难度级别的问题。这些问题测试了现实世界AI应用所需的一系列技能，包括网页浏览、多模态理解、代码执行、文件处理和复杂推理。

一级问题通常需要人类大约5个步骤和一种工具来解决。二级问题需要5到10个步骤和多种工具，而三级问题可能需要多达50个步骤和任意数量的工具。这种结构反映了实际商业问题的复杂性，解决方案往往涉及多个动作和工具。

通过专注于灵活性而不仅仅是复杂性，一个AI模型在GAIA上取得了75%的准确率，超过了行业领先者，如微软的Magnetic-1（38%）和谷歌的Langfun Agent（49%）。这一成功得益于使用专门的模型进行音视频理解和推理，以Anthropic的Sonnet 3.5作为主要模型。

AI评估的这种转变反映了行业的一个更广泛趋势：我们正在从独立的SaaS应用转向能够管理多种工具和工作流程的AI代理。随着企业越来越依赖AI来处理复杂的多步骤任务，像GAIA这样的基准测试提供了比传统单选题测试更相关的能力衡量标准。

AI评估的未来不是孤立的知识测试；它是对问题解决能力的全面评估。GAIA为衡量AI能力设定了一个新基准——一个更符合AI部署现实挑战和机遇的基准。

斯里·安巴蒂是H2O.ai的创始人和首席执行官。

Salesforce发布Slack AI数字队友对抗Microsoft Copilot Salesforce推出全新职场AI策略，在Slack对话中引入专业“数字队友”，公司于周一公布。新工具Agentforce in Slack使企业能够创建和部署任务特定AI代理，搜索职场聊天，访问公司数据，并在员工日常使用的消息平台内执行操作。“正如专业员工协作解决问题，我们的客户需要AI代理协同工作，为客户和员工解决问题，”Salesforce Slack首席产品官Rob Seaman在Ven

从互联网热潮到人工智能：避免过去科技陷阱的经验教训在互联网热潮期间，为公司名称加上“.com”就能使其股价飙升，即便没有客户、收入或可行的商业模式。如今，同样的狂热围绕着“人工智能”，公司急于采用这一标签以利用热潮。企业争相将“人工智能”融入其品牌、产品描述和域名。根据Domain Name Stat的数据，2024年“.ai”域名注册量同比增长77.1%，初创公司和老牌企业都争相与人工智能挂钩，无论是否具备真正的AI能力。20世纪90年代末的经

谷歌发布面向生产环境的Gemini 2.5 AI模型，挑战企业市场中的OpenAI 谷歌周一加码其AI战略，推出面向企业使用的先进Gemini 2.5模型，并引入成本效益更高的变体，以在价格和性能上展开竞争。这家隶属于Alphabet的公司将其旗舰AI模型——Gemini 2.5 Pro和Gemini 2.5 Flash——从测试阶段提升至全面可用，展示其在关键业务应用中的准备就绪。同时，谷歌推出了Gemini 2.5 Flash-Lite，定位为高容量任务中最具预算友好性的选择

0/200

提交

GaryThomas

2025-08-08 12:01:29

This GAIA benchmark sounds intriguing! 🤔 It’s like trying to measure a rainbow with a ruler—cool concept, but can it really capture true intelligence? I wonder how it compares to ARC-AGI in practical applications.