新基准测试质疑人工智能助手的职场适应性
近两年前,微软首席执行官萨蒂亚·纳德拉曾预言人工智能将重塑知识型工作——即律师、投资银行家、图书馆员、会计师、IT专业人士及类似白领岗位的领域。
然而,尽管基础模型取得了重大进展,知识工作的转型却迟迟未能实现。虽然模型在深度研究和智能规划方面表现出色,但大多数白领职业却鲜有受到颠覆性影响,其原因至今尚不明确。
这已成为人工智能领域的一大谜题。训练数据领军企业Mercor的最新研究正提供关键洞见。
该研究评估了顶尖AI模型处理咨询、投行及法律领域真实白领任务的能力,由此创建了APEX-Agents基准测试——目前所有AI实验室均未能通过。面对真实专业人士的提问,即使最优秀的模型正确回答率也不到四分之一,多数情况下会给出错误答案或完全无回应。
参与研究的Mercor首席执行官布伦丹·福迪指出,模型最核心的缺陷在于跨领域信息整合能力——这恰是人类知识工作的精髓所在。
"该基准测试的关键创新在于构建了模拟真实专业服务的完整环境,"福迪向TechCrunch解释道,"现实工作中不会有人在单一平台提供完整背景信息,实际操作需在Slack、Google Drive等多种工具间切换。"对多数智能体AI模型而言,此类跨领域推理仍存在显著不稳定性。

截图 测试场景源自Mercor专家市场中的真实从业者,由他们设计查询并定义成功回答的标准。查阅Hugging Face平台公开的问题可窥见这些任务的复杂性。
Techcrunch活动 Disrupt 2026门票:限时优惠
门票现已开售!限时优惠最高可省680美元,前500名注册者可享+1通行证五折特惠。TechCrunch Disrupt汇聚谷歌云、奈飞、微软、Box、a16z、Hugging Face等顶尖企业领袖,通过250余场专题会议助您加速增长、强化竞争优势。 与数百家创新初创企业建立联系,参与精心策划的交流活动,促成合作、获取洞见、激发灵感。
Disrupt 2026门票:限时优惠
门票现已开售!限时优惠最高可省680美元,前500名注册者可享+1通行证五折优惠。TechCrunch Disrupt汇聚谷歌云、奈飞、微软、Box、a16z、Hugging Face等顶尖企业领袖,通过250余场专题会议助您加速发展、提升竞争力。 与数百家创新初创企业建立联系,参与精心策划的社交活动,促成合作、获取洞见、激发灵感。
旧金山 | 2026年10月13-15日 立即注册 法律板块示例问题:
在欧盟生产系统停机的前48分钟内,北极星工程团队向美国分析供应商导出了一至两组包含个人数据的欧盟生产事件日志……根据北极星自身政策,是否可合理认定此类日志导出符合第49条规定?
正确答案是肯定的,但得出结论需对公司内部政策及相关欧盟隐私法规进行细致分析。
此类问题即使对专业人士也颇具挑战性,但研究人员旨在模拟真实的职业工作场景。能够可靠解答此类查询的大型语言模型,未来或将取代众多执业律师。Foody向TechCrunch表示:"这无疑是当今最重要的经济议题,该基准测试精准反映了专业人士的实际工作内容。"
OpenAI此前曾通过GDPval基准测试评估专业技能,但APEX-Agents测试具有显著差异:GDPval侧重多领域广博知识的评估,而APEX-Agents则衡量系统在少数高价值职业领域执行持续性任务的能力。这使得测试对模型更具挑战性,也更直接关乎职业自动化的潜在可能性。
尽管尚无模型能替代投资银行家的工作,但部分模型表现明显优于其他模型。Gemini 3 Flash以24%的单次准确率领跑,GPT-5.2以23%紧随其后。Opus 4.5、Gemini 3 Pro和GPT-5的得分均在18%左右。
尽管这些初步结果令人失望,但人工智能领域素来以快速突破技术难关著称。随着APEX-Agents测试公开,这为自信能实现突破的人工智能实验室抛出了公开挑战——Foody完全预期未来数月将出现突破性进展。
"技术进步速度惊人,"他向TechCrunch表示,"当前该技术相当于每四次操作能成功一次的实习生,而去年成功率仅为5%至10%。这种逐年递增的进步速度将迅速产生重大影响。"
相关文章
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
Anthropic公司的实验性人工智能Claude在电子商务测试中完成了谈判和交易
随着人工智能的飞速发展,Anthropic上周五悄然启动了一项名为“Project Deal”的内部实验,展示了人工智能在电子商务领域的潜力。该实验让其人工智能模型Claude在封闭的市场环境中自主处理买卖及价格谈判,并涉及真实的金融交易。实验的核心是一个基于Slack构建的内部市场,Claude在其中同时担任买卖双方的谈判代表。它首先对69名员工进行了访谈,收集了他们的买卖意向及个性化指示,随后
相关专题推荐
评论 (0)
0/500
近两年前,微软首席执行官萨蒂亚·纳德拉曾预言人工智能将重塑知识型工作——即律师、投资银行家、图书馆员、会计师、IT专业人士及类似白领岗位的领域。
然而,尽管基础模型取得了重大进展,知识工作的转型却迟迟未能实现。虽然模型在深度研究和智能规划方面表现出色,但大多数白领职业却鲜有受到颠覆性影响,其原因至今尚不明确。
这已成为人工智能领域的一大谜题。训练数据领军企业Mercor的最新研究正提供关键洞见。
该研究评估了顶尖AI模型处理咨询、投行及法律领域真实白领任务的能力,由此创建了APEX-Agents基准测试——目前所有AI实验室均未能通过。面对真实专业人士的提问,即使最优秀的模型正确回答率也不到四分之一,多数情况下会给出错误答案或完全无回应。
参与研究的Mercor首席执行官布伦丹·福迪指出,模型最核心的缺陷在于跨领域信息整合能力——这恰是人类知识工作的精髓所在。
"该基准测试的关键创新在于构建了模拟真实专业服务的完整环境,"福迪向TechCrunch解释道,"现实工作中不会有人在单一平台提供完整背景信息,实际操作需在Slack、Google Drive等多种工具间切换。"对多数智能体AI模型而言,此类跨领域推理仍存在显著不稳定性。

测试场景源自Mercor专家市场中的真实从业者,由他们设计查询并定义成功回答的标准。查阅Hugging Face平台公开的问题可窥见这些任务的复杂性。
Techcrunch活动Disrupt 2026门票:限时优惠
门票现已开售!限时优惠最高可省680美元,前500名注册者可享+1通行证五折特惠。TechCrunch Disrupt汇聚谷歌云、奈飞、微软、Box、a16z、Hugging Face等顶尖企业领袖,通过250余场专题会议助您加速增长、强化竞争优势。 与数百家创新初创企业建立联系,参与精心策划的交流活动,促成合作、获取洞见、激发灵感。
Disrupt 2026门票:限时优惠
门票现已开售!限时优惠最高可省680美元,前500名注册者可享+1通行证五折优惠。TechCrunch Disrupt汇聚谷歌云、奈飞、微软、Box、a16z、Hugging Face等顶尖企业领袖,通过250余场专题会议助您加速发展、提升竞争力。 与数百家创新初创企业建立联系,参与精心策划的社交活动,促成合作、获取洞见、激发灵感。
旧金山 | 2026年10月13-15日 立即注册法律板块示例问题:
在欧盟生产系统停机的前48分钟内,北极星工程团队向美国分析供应商导出了一至两组包含个人数据的欧盟生产事件日志……根据北极星自身政策,是否可合理认定此类日志导出符合第49条规定?
正确答案是肯定的,但得出结论需对公司内部政策及相关欧盟隐私法规进行细致分析。
此类问题即使对专业人士也颇具挑战性,但研究人员旨在模拟真实的职业工作场景。能够可靠解答此类查询的大型语言模型,未来或将取代众多执业律师。Foody向TechCrunch表示:"这无疑是当今最重要的经济议题,该基准测试精准反映了专业人士的实际工作内容。"
OpenAI此前曾通过GDPval基准测试评估专业技能,但APEX-Agents测试具有显著差异:GDPval侧重多领域广博知识的评估,而APEX-Agents则衡量系统在少数高价值职业领域执行持续性任务的能力。这使得测试对模型更具挑战性,也更直接关乎职业自动化的潜在可能性。
尽管尚无模型能替代投资银行家的工作,但部分模型表现明显优于其他模型。Gemini 3 Flash以24%的单次准确率领跑,GPT-5.2以23%紧随其后。Opus 4.5、Gemini 3 Pro和GPT-5的得分均在18%左右。
尽管这些初步结果令人失望,但人工智能领域素来以快速突破技术难关著称。随着APEX-Agents测试公开,这为自信能实现突破的人工智能实验室抛出了公开挑战——Foody完全预期未来数月将出现突破性进展。
"技术进步速度惊人,"他向TechCrunch表示,"当前该技术相当于每四次操作能成功一次的实习生,而去年成功率仅为5%至10%。这种逐年递增的进步速度将迅速产生重大影响。"
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
Anthropic公司的实验性人工智能Claude在电子商务测试中完成了谈判和交易
随着人工智能的飞速发展,Anthropic上周五悄然启动了一项名为“Project Deal”的内部实验,展示了人工智能在电子商务领域的潜力。该实验让其人工智能模型Claude在封闭的市场环境中自主处理买卖及价格谈判,并涉及真实的金融交易。实验的核心是一个基于Slack构建的内部市场,Claude在其中同时担任买卖双方的谈判代表。它首先对69名员工进行了访谈,收集了他们的买卖意向及个性化指示,随后





首页






