盖亚(Gaia
智力无处不在,但是准确地测量它就像试图用裸手抓住云。我们使用考试和基准(例如大学入学考试)来获得一个大概的想法。每年,学生都会为这些测试做好准备,有时甚至得分完美的100%。但是,完美的分数是否意味着他们都具有相同的智力水平,或者他们已经达到了他们的心理潜力?当然不是。这些基准只是粗略的估计,而不是某人真正能力的精确指标。
在生成AI的世界中,MMLU(大量的多任务语言理解)等基准已成为通过各个学术领域的多项选择问题评估模型的首选。尽管它们允许轻松比较,但他们并没有真正捕捉到完整的智能功能。
以Claude 3.5十四行诗和GPT-4.5为例。他们可能在MMLU上得分类似,表明他们在标准杆上。但是,任何实际使用这些模型的人都知道他们的现实世界表现可能会大不相同。
在AI中衡量“智能”意味着什么?
随着最近推出的ARC-AGI基准测试,旨在测试一般推理和解决问题问题的模型,有关AI中“智能”的含义的新浪潮。并不是每个人都有机会潜入Arc-Agi,但是该行业正在对这种测试和其他新方法嗡嗡作响。每个基准都有其位置,而Arc-Agi是朝正确方向迈出的一步。
另一个令人兴奋的发展是“人类的最后考试”,这是一个全面的基准,其中有3,000个同行评审的多步骤问题,涵盖了不同的学科。将AI系统推向专家级别的推理是一项雄心勃勃的努力。早期的结果显示出快速的进步,据报道,释放一个月后,Openai的得分达到了26.6%。但是像其他基准一样,它主要集中在真空中的知识和推理上,而不是对现实世界中AI应用至关重要的实用,使用工具的技能。
以某些顶级模型如何处理简单的任务,例如计算“草莓”中的“ r” S或比较3.8与3.1111。这些错误,即使是儿童或基本的计算器也可以避免的错误,突出了基准成功与现实世界可靠性之间的差距。这提醒人们,智力不仅仅是针对测试。这是关于轻松浏览日常逻辑。

测量AI功能的新标准
随着AI模型的发展,传统基准的局限性变得更加明显。例如,GPT-4配备工具时,尽管在多项选择测试上得分很高,但在GAIA基准测试中的更复杂,现实世界中的任务中仅得分约为15%。
随着AI系统从研究实验室到业务应用程序的过渡,基准性能与实际能力之间的这种差异越来越有问题。传统基准测试模型能够回忆信息的能力,但经常忽略智能的关键方面,例如收集数据,运行代码,分析信息并在各个领域创建解决方案的能力。
输入Gaia,这是一种标志着AI评估的重大转变的新基准。通过Meta-Fair,Meta-Genai,Huggingface和Autogpt的团队之间的合作开发,盖亚在三个难度级别上包含466个精心制作的问题。这些问题测试了现实世界中AI应用程序必不可少的各种技能,包括网络浏览,多模式理解,代码执行,文件处理和复杂的推理。
第1级问题通常需要大约5个步骤,一个工具才能解决人类。第2级问题需要5到10个步骤和多个工具,而第3级问题可能需要多达50个步骤和任何数量的工具。这种结构反映了实际业务问题的复杂性,解决方案通常涉及多种操作和工具。
通过专注于灵活性,而不仅仅是复杂性,AI模型在Gaia上的准确率达到了75%的精度,超过了Microsoft的Magnetic-1(38%)和Google的Langfun代理(49%)等行业领导者。这种成功源于使用专门模型的视听理解和推理的混合,而Anthropic的十四行诗3.5作为主要模型。
AI评估的这种转变反映了该行业的更广泛趋势:我们正在从独立的SaaS应用程序转向可以管理多种工具和工作流程的AI代理。随着企业越来越依赖AI来解决复杂的多步骤任务,诸如Gaia之类的基准比传统的多项选择测试提供了更相关的能力衡量标准。
AI评估的未来与孤立的知识测试有关。这是关于解决问题能力的全面评估。盖亚(Gaia)为测量AI功能设定了一个新的基准,该基准与AI部署的现实世界挑战和机遇更好。
Sri Ambati是H2O.AI的创始人兼首席执行官。
相关文章
谷歌AI跃升内幕:Gemini 2.5思维更深、表达更智能且编码更快
谷歌迈向通用人工智能助手愿景的步伐越来越近在今年的谷歌I/O大会上,谷歌透露了对其Gemini 2.5系列的重大升级,尤其侧重于提升其在各个维度上的能力。最新版本——Gemini 2.5 Flash和Gemini 2.5 Pro——现在比以往任何时候都更加聪明和高效。这些进步使谷歌离实现其创造一个能够无缝理解上下文、规划和执行任务的通用人工智能助手的目标更近
深度认知发布开源AI模型,已名列前茅
深度思睿推出革命性AI模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito),在其发展历程中迈出了开创性的一步,正式推出了其首条开源大型语言模型(LLMs)系列,命名为Cogito v1。这些模型经过Meta的Llama 3.2微调,具备混合推理能力,既能快速响应,也能进行内省思考——这一特性让人联想到OpenAI的“o”系列和DeepS
微软在Build 2025大会上宣布推出50多款AI工具构建‘主动网络'
微软在Build大会上发布开放自主网络愿景今天早上,微软在其年度Build大会开幕式上做出了大胆的声明:“开放自主网络时代”的到来。在超过50项公告的大规模发布中,这家科技巨头概述了一项全面的战略,旨在成为这一变革运动的核心。从GitHub和Azure到Windows和Microsoft 365,每条产品线都获得了更新,旨在推动AI代理技术的发展。这些代理承
评论 (0)
0/200
智力无处不在,但是准确地测量它就像试图用裸手抓住云。我们使用考试和基准(例如大学入学考试)来获得一个大概的想法。每年,学生都会为这些测试做好准备,有时甚至得分完美的100%。但是,完美的分数是否意味着他们都具有相同的智力水平,或者他们已经达到了他们的心理潜力?当然不是。这些基准只是粗略的估计,而不是某人真正能力的精确指标。
在生成AI的世界中,MMLU(大量的多任务语言理解)等基准已成为通过各个学术领域的多项选择问题评估模型的首选。尽管它们允许轻松比较,但他们并没有真正捕捉到完整的智能功能。
以Claude 3.5十四行诗和GPT-4.5为例。他们可能在MMLU上得分类似,表明他们在标准杆上。但是,任何实际使用这些模型的人都知道他们的现实世界表现可能会大不相同。
在AI中衡量“智能”意味着什么?
随着最近推出的ARC-AGI基准测试,旨在测试一般推理和解决问题问题的模型,有关AI中“智能”的含义的新浪潮。并不是每个人都有机会潜入Arc-Agi,但是该行业正在对这种测试和其他新方法嗡嗡作响。每个基准都有其位置,而Arc-Agi是朝正确方向迈出的一步。
另一个令人兴奋的发展是“人类的最后考试”,这是一个全面的基准,其中有3,000个同行评审的多步骤问题,涵盖了不同的学科。将AI系统推向专家级别的推理是一项雄心勃勃的努力。早期的结果显示出快速的进步,据报道,释放一个月后,Openai的得分达到了26.6%。但是像其他基准一样,它主要集中在真空中的知识和推理上,而不是对现实世界中AI应用至关重要的实用,使用工具的技能。
以某些顶级模型如何处理简单的任务,例如计算“草莓”中的“ r” S或比较3.8与3.1111。这些错误,即使是儿童或基本的计算器也可以避免的错误,突出了基准成功与现实世界可靠性之间的差距。这提醒人们,智力不仅仅是针对测试。这是关于轻松浏览日常逻辑。
测量AI功能的新标准
随着AI模型的发展,传统基准的局限性变得更加明显。例如,GPT-4配备工具时,尽管在多项选择测试上得分很高,但在GAIA基准测试中的更复杂,现实世界中的任务中仅得分约为15%。
随着AI系统从研究实验室到业务应用程序的过渡,基准性能与实际能力之间的这种差异越来越有问题。传统基准测试模型能够回忆信息的能力,但经常忽略智能的关键方面,例如收集数据,运行代码,分析信息并在各个领域创建解决方案的能力。
输入Gaia,这是一种标志着AI评估的重大转变的新基准。通过Meta-Fair,Meta-Genai,Huggingface和Autogpt的团队之间的合作开发,盖亚在三个难度级别上包含466个精心制作的问题。这些问题测试了现实世界中AI应用程序必不可少的各种技能,包括网络浏览,多模式理解,代码执行,文件处理和复杂的推理。
第1级问题通常需要大约5个步骤,一个工具才能解决人类。第2级问题需要5到10个步骤和多个工具,而第3级问题可能需要多达50个步骤和任何数量的工具。这种结构反映了实际业务问题的复杂性,解决方案通常涉及多种操作和工具。
通过专注于灵活性,而不仅仅是复杂性,AI模型在Gaia上的准确率达到了75%的精度,超过了Microsoft的Magnetic-1(38%)和Google的Langfun代理(49%)等行业领导者。这种成功源于使用专门模型的视听理解和推理的混合,而Anthropic的十四行诗3.5作为主要模型。
AI评估的这种转变反映了该行业的更广泛趋势:我们正在从独立的SaaS应用程序转向可以管理多种工具和工作流程的AI代理。随着企业越来越依赖AI来解决复杂的多步骤任务,诸如Gaia之类的基准比传统的多项选择测试提供了更相关的能力衡量标准。
AI评估的未来与孤立的知识测试有关。这是关于解决问题能力的全面评估。盖亚(Gaia)为测量AI功能设定了一个新的基准,该基准与AI部署的现实世界挑战和机遇更好。
Sri Ambati是H2O.AI的创始人兼首席执行官。












