盖亚(Gaia
2025年05月02日
MatthewCarter
0
智力无处不在,但是准确地测量它就像试图用裸手抓住云。我们使用考试和基准(例如大学入学考试)来获得一个大概的想法。每年,学生都会为这些测试做好准备,有时甚至得分完美的100%。但是,完美的分数是否意味着他们都具有相同的智力水平,或者他们已经达到了他们的心理潜力?当然不是。这些基准只是粗略的估计,而不是某人真正能力的精确指标。
在生成AI的世界中,MMLU(大量的多任务语言理解)等基准已成为通过各个学术领域的多项选择问题评估模型的首选。尽管它们允许轻松比较,但他们并没有真正捕捉到完整的智能功能。
以Claude 3.5十四行诗和GPT-4.5为例。他们可能在MMLU上得分类似,表明他们在标准杆上。但是,任何实际使用这些模型的人都知道他们的现实世界表现可能会大不相同。
在AI中衡量“智能”意味着什么?
随着最近推出的ARC-AGI基准测试,旨在测试一般推理和解决问题问题的模型,有关AI中“智能”的含义的新浪潮。并不是每个人都有机会潜入Arc-Agi,但是该行业正在对这种测试和其他新方法嗡嗡作响。每个基准都有其位置,而Arc-Agi是朝正确方向迈出的一步。
另一个令人兴奋的发展是“人类的最后考试”,这是一个全面的基准,其中有3,000个同行评审的多步骤问题,涵盖了不同的学科。将AI系统推向专家级别的推理是一项雄心勃勃的努力。早期的结果显示出快速的进步,据报道,释放一个月后,Openai的得分达到了26.6%。但是像其他基准一样,它主要集中在真空中的知识和推理上,而不是对现实世界中AI应用至关重要的实用,使用工具的技能。
以某些顶级模型如何处理简单的任务,例如计算“草莓”中的“ r” S或比较3.8与3.1111。这些错误,即使是儿童或基本的计算器也可以避免的错误,突出了基准成功与现实世界可靠性之间的差距。这提醒人们,智力不仅仅是针对测试。这是关于轻松浏览日常逻辑。

测量AI功能的新标准
随着AI模型的发展,传统基准的局限性变得更加明显。例如,GPT-4配备工具时,尽管在多项选择测试上得分很高,但在GAIA基准测试中的更复杂,现实世界中的任务中仅得分约为15%。
随着AI系统从研究实验室到业务应用程序的过渡,基准性能与实际能力之间的这种差异越来越有问题。传统基准测试模型能够回忆信息的能力,但经常忽略智能的关键方面,例如收集数据,运行代码,分析信息并在各个领域创建解决方案的能力。
输入Gaia,这是一种标志着AI评估的重大转变的新基准。通过Meta-Fair,Meta-Genai,Huggingface和Autogpt的团队之间的合作开发,盖亚在三个难度级别上包含466个精心制作的问题。这些问题测试了现实世界中AI应用程序必不可少的各种技能,包括网络浏览,多模式理解,代码执行,文件处理和复杂的推理。
第1级问题通常需要大约5个步骤,一个工具才能解决人类。第2级问题需要5到10个步骤和多个工具,而第3级问题可能需要多达50个步骤和任何数量的工具。这种结构反映了实际业务问题的复杂性,解决方案通常涉及多种操作和工具。
通过专注于灵活性,而不仅仅是复杂性,AI模型在Gaia上的准确率达到了75%的精度,超过了Microsoft的Magnetic-1(38%)和Google的Langfun代理(49%)等行业领导者。这种成功源于使用专门模型的视听理解和推理的混合,而Anthropic的十四行诗3.5作为主要模型。
AI评估的这种转变反映了该行业的更广泛趋势:我们正在从独立的SaaS应用程序转向可以管理多种工具和工作流程的AI代理。随着企业越来越依赖AI来解决复杂的多步骤任务,诸如Gaia之类的基准比传统的多项选择测试提供了更相关的能力衡量标准。
AI评估的未来与孤立的知识测试有关。这是关于解决问题能力的全面评估。盖亚(Gaia)为测量AI功能设定了一个新的基准,该基准与AI部署的现实世界挑战和机遇更好。
Sri Ambati是H2O.AI的创始人兼首席执行官。
相关文章
AI初创公司获得了750万美元的革命性,以彻底改变美国2400万企业的商业保险
1Fort是一家纽约的初创公司,已获得了750万美元的种子资金,以彻底改变小型企业如何通过其AI驱动的平台获得商业保险。随着2024年的200%月份收入增长惊人的200%,1折扣将彻底改革过时的手动流程
Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因
在周末,Facebook,Instagram,WhatsApp和Quest VR背后的强大力量Meta通过揭露其最新的AI语言模型Llama 4。不仅是一个,而且引入了三个新版本,每个版本都具有增强功能,这要归功于“ Architecturs” Architecturs”
Google在企业的Android Studio中推出Gemini,使开发人员更容易设计工作应用
苹果公司可能仍会统治美国智能手机市场,但是Google的Android OS以其灵活性和负担能力赢得了企业和企业的赢得。 Stratix最近的一项调查显示,现在有60%的公司设备在Android Tech上运行。 Google并没有停止那里;他们开始了
评论 (0)
0/200






智力无处不在,但是准确地测量它就像试图用裸手抓住云。我们使用考试和基准(例如大学入学考试)来获得一个大概的想法。每年,学生都会为这些测试做好准备,有时甚至得分完美的100%。但是,完美的分数是否意味着他们都具有相同的智力水平,或者他们已经达到了他们的心理潜力?当然不是。这些基准只是粗略的估计,而不是某人真正能力的精确指标。
在生成AI的世界中,MMLU(大量的多任务语言理解)等基准已成为通过各个学术领域的多项选择问题评估模型的首选。尽管它们允许轻松比较,但他们并没有真正捕捉到完整的智能功能。
以Claude 3.5十四行诗和GPT-4.5为例。他们可能在MMLU上得分类似,表明他们在标准杆上。但是,任何实际使用这些模型的人都知道他们的现实世界表现可能会大不相同。
在AI中衡量“智能”意味着什么?
随着最近推出的ARC-AGI基准测试,旨在测试一般推理和解决问题问题的模型,有关AI中“智能”的含义的新浪潮。并不是每个人都有机会潜入Arc-Agi,但是该行业正在对这种测试和其他新方法嗡嗡作响。每个基准都有其位置,而Arc-Agi是朝正确方向迈出的一步。
另一个令人兴奋的发展是“人类的最后考试”,这是一个全面的基准,其中有3,000个同行评审的多步骤问题,涵盖了不同的学科。将AI系统推向专家级别的推理是一项雄心勃勃的努力。早期的结果显示出快速的进步,据报道,释放一个月后,Openai的得分达到了26.6%。但是像其他基准一样,它主要集中在真空中的知识和推理上,而不是对现实世界中AI应用至关重要的实用,使用工具的技能。
以某些顶级模型如何处理简单的任务,例如计算“草莓”中的“ r” S或比较3.8与3.1111。这些错误,即使是儿童或基本的计算器也可以避免的错误,突出了基准成功与现实世界可靠性之间的差距。这提醒人们,智力不仅仅是针对测试。这是关于轻松浏览日常逻辑。
测量AI功能的新标准
随着AI模型的发展,传统基准的局限性变得更加明显。例如,GPT-4配备工具时,尽管在多项选择测试上得分很高,但在GAIA基准测试中的更复杂,现实世界中的任务中仅得分约为15%。
随着AI系统从研究实验室到业务应用程序的过渡,基准性能与实际能力之间的这种差异越来越有问题。传统基准测试模型能够回忆信息的能力,但经常忽略智能的关键方面,例如收集数据,运行代码,分析信息并在各个领域创建解决方案的能力。
输入Gaia,这是一种标志着AI评估的重大转变的新基准。通过Meta-Fair,Meta-Genai,Huggingface和Autogpt的团队之间的合作开发,盖亚在三个难度级别上包含466个精心制作的问题。这些问题测试了现实世界中AI应用程序必不可少的各种技能,包括网络浏览,多模式理解,代码执行,文件处理和复杂的推理。
第1级问题通常需要大约5个步骤,一个工具才能解决人类。第2级问题需要5到10个步骤和多个工具,而第3级问题可能需要多达50个步骤和任何数量的工具。这种结构反映了实际业务问题的复杂性,解决方案通常涉及多种操作和工具。
通过专注于灵活性,而不仅仅是复杂性,AI模型在Gaia上的准确率达到了75%的精度,超过了Microsoft的Magnetic-1(38%)和Google的Langfun代理(49%)等行业领导者。这种成功源于使用专门模型的视听理解和推理的混合,而Anthropic的十四行诗3.5作为主要模型。
AI评估的这种转变反映了该行业的更广泛趋势:我们正在从独立的SaaS应用程序转向可以管理多种工具和工作流程的AI代理。随着企业越来越依赖AI来解决复杂的多步骤任务,诸如Gaia之类的基准比传统的多项选择测试提供了更相关的能力衡量标准。
AI评估的未来与孤立的知识测试有关。这是关于解决问题能力的全面评估。盖亚(Gaia)为测量AI功能设定了一个新的基准,该基准与AI部署的现实世界挑战和机遇更好。
Sri Ambati是H2O.AI的创始人兼首席执行官。












