选项
首页
新闻
新基准测试质疑人工智能助手的职场适应性

新基准测试质疑人工智能助手的职场适应性

2026-02-20
75

近两年前,微软首席执行官萨蒂亚·纳德拉曾预言人工智能将重塑知识型工作——即律师、投资银行家、图书馆员、会计师、IT专业人士及类似白领岗位的领域。

然而,尽管基础模型取得了重大进展,知识工作的转型却迟迟未能实现。虽然模型在深度研究和智能规划方面表现出色,但大多数白领职业却鲜有受到颠覆性影响,其原因至今尚不明确。

这已成为人工智能领域的一大谜题。训练数据领军企业Mercor的最新研究正提供关键洞见。

该研究评估了顶尖AI模型处理咨询、投行及法律领域真实白领任务的能力,由此创建了APEX-Agents基准测试——目前所有AI实验室均未能通过。面对真实专业人士的提问,即使最优秀的模型正确回答率也不到四分之一,多数情况下会给出错误答案或完全无回应。

参与研究的Mercor首席执行官布伦丹·福迪指出,模型最核心的缺陷在于跨领域信息整合能力——这恰是人类知识工作的精髓所在。

"该基准测试的关键创新在于构建了模拟真实专业服务的完整环境,"福迪向TechCrunch解释道,"现实工作中不会有人在单一平台提供完整背景信息,实际操作需在Slack、Google Drive等多种工具间切换。"对多数智能体AI模型而言,此类跨领域推理仍存在显著不稳定性。

截图

测试场景源自Mercor专家市场中的真实从业者,由他们设计查询并定义成功回答的标准。查阅Hugging Face平台公开的问题可窥见这些任务的复杂性。 

Techcrunch活动

Disrupt 2026门票:限时优惠

门票现已开售!限时优惠最高可省680美元,前500名注册者可享+1通行证五折特惠。TechCrunch Disrupt汇聚谷歌云、奈飞、微软、Box、a16z、Hugging Face等顶尖企业领袖,通过250余场专题会议助您加速增长、强化竞争优势。 与数百家创新初创企业建立联系,参与精心策划的交流活动,促成合作、获取洞见、激发灵感。

Disrupt 2026门票:限时优惠

门票现已开售!限时优惠最高可省680美元,前500名注册者可享+1通行证五折优惠。TechCrunch Disrupt汇聚谷歌云、奈飞、微软、Box、a16z、Hugging Face等顶尖企业领袖,通过250余场专题会议助您加速发展、提升竞争力。 与数百家创新初创企业建立联系,参与精心策划的社交活动,促成合作、获取洞见、激发灵感。

旧金山 | 2026年10月13-15日 立即注册

法律板块示例问题: 

在欧盟生产系统停机的前48分钟内,北极星工程团队向美国分析供应商导出了一至两组包含个人数据的欧盟生产事件日志……根据北极星自身政策,是否可合理认定此类日志导出符合第49条规定?

正确答案是肯定的,但得出结论需对公司内部政策及相关欧盟隐私法规进行细致分析。

此类问题即使对专业人士也颇具挑战性,但研究人员旨在模拟真实的职业工作场景。能够可靠解答此类查询的大型语言模型,未来或将取代众多执业律师。Foody向TechCrunch表示:"这无疑是当今最重要的经济议题,该基准测试精准反映了专业人士的实际工作内容。"

OpenAI此前曾通过GDPval基准测试评估专业技能,但APEX-Agents测试具有显著差异:GDPval侧重多领域广博知识的评估,而APEX-Agents则衡量系统在少数高价值职业领域执行持续性任务的能力。这使得测试对模型更具挑战性,也更直接关乎职业自动化的潜在可能性。

尽管尚无模型能替代投资银行家的工作,但部分模型表现明显优于其他模型。Gemini 3 Flash以24%的单次准确率领跑,GPT-5.2以23%紧随其后。Opus 4.5、Gemini 3 Pro和GPT-5的得分均在18%左右。

尽管这些初步结果令人失望,但人工智能领域素来以快速突破技术难关著称。随着APEX-Agents测试公开,这为自信能实现突破的人工智能实验室抛出了公开挑战——Foody完全预期未来数月将出现突破性进展。 

"技术进步速度惊人,"他向TechCrunch表示,"当前该技术相当于每四次操作能成功一次的实习生,而去年成功率仅为5%至10%。这种逐年递增的进步速度将迅速产生重大影响。"

相关文章
萨提亚·纳德拉准备利用与OpenAI的新合作关系 萨提亚·纳德拉准备利用与OpenAI的新合作关系 周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能 WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能 广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
Anthropic公司的实验性人工智能Claude在电子商务测试中完成了谈判和交易 Anthropic公司的实验性人工智能Claude在电子商务测试中完成了谈判和交易 随着人工智能的飞速发展,Anthropic上周五悄然启动了一项名为“Project Deal”的内部实验,展示了人工智能在电子商务领域的潜力。该实验让其人工智能模型Claude在封闭的市场环境中自主处理买卖及价格谈判,并涉及真实的金融交易。实验的核心是一个基于Slack构建的内部市场,Claude在其中同时担任买卖双方的谈判代表。它首先对69名员工进行了访谈,收集了他们的买卖意向及个性化指示,随后
相关专题推荐
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
聊天机器人 最佳AI调情与对话训练工具:实时提升社交魅力与自信
最佳AI调情与对话训练工具:实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具,查看免费版与付费版的对比,并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具
xix.ai
评论 (0)
0/500
OR