人类声称AI并不停滞，它超出了基准测试

首页

新闻

人类声称AI并不停滞，它超出了基准测试

2025-04-17

ThomasYoung

161

人类声称AI并不停滞，它超出了基准测试

大型语言模型（LLM）和其他生成式AI技术在自我修正方面取得了显著进展，这为新应用铺平了道路，包括所谓的“代理式AI”，这是由领先的AI模型开发公司Anthropic的副总裁Michael Gerstenhaber所述。。

“它在自我修正、自我推理方面表现得越来越好，”在Anthropic领导API技术的Gerstenhaber在纽约接受彭博智能分析师Anurag Rana采访时分享道。Anthropic是Claude系列LLM的创造者，是OpenAI的GPT模型的直接竞争者。“每隔几个月，我们就发布一个新模型，扩展LLM的功能，”他补充说，强调了行业动态的动态性质，每次模型修订都会解锁新的潜在用途。

AI模型的新功能

Anthropic的最新模型引入了任务规划等功能，使它们能够像人类一样在计算机上执行任务，例如在线订购披萨。Gerstenhaber指出，这种逐步执行任务的方式“昨天还不可行，今天已经触手可及”。

这场讨论还邀请了AI初创公司Scale AI的首席技术官Vijay Karunamunthy，是一场由彭博智能主办的为期一天的会议的一部分，主题为“生成式AI：它能否兑现生产力承诺？”

挑战AI怀疑论

Gerstenhaber的见解挑战了AI怀疑论者的观点，他们认为生成式AI和更广泛的AI领域正在“撞墙”，认为每个新模型迭代的回报递减。例如，AI学者Gary Marcus自2022年以来一直公开表达他的担忧，警告说，仅仅增加AI模型的参数数量不会按比例提高性能。。

然而，Gerstenhaber断言，Anthropic正在推动超越当前AI基准测试所能衡量的边界。他说：“即使某些领域的进展看似放缓，那是因为我们正在解锁全新功能，但我们已经饱和了基准测试以及执行旧任务的能力。”这使得评估当前生成式AI模型的全部能力变得越来越困难。

扩展与学习

Gerstenhaber和Karunamunthy都强调了扩展生成式AI模型以增强其自我修正能力的重要性。Gerstenhaber评论说：“我们确实看到了智能的扩展越来越多。”Karunamunthy补充道：“我们认为规划和推理没有撞墙的一个原因是，我们仍在学习如何构建这些任务，以便模型能够适应新的和多样的环境。”

Gerstenhaber同意这一观点，他说：“我们正处于早期阶段，从应用开发者那里学习他们的需求以及模型的不足之处，然后我们可以将其整合回语言模型中。”

实时学习与适应

据Gerstenhaber称，这一进展很大程度上得益于Anthropic的快速基础研究步伐，以及来自行业反馈的实时学习。他说：“我们正在适应行业告诉我们的需求，实时学习。”

客户通常从较大的模型开始，然后缩小到更简单的模型以适应特定用途。Gerstenhaber解释说：“最初，他们评估一个模型是否足够智能来很好地执行任务，然后是否足够快以满足他们的应用需求，最后是否尽可能具有成本效益。”

贝恩预测代理式人工智能自动化领域的SaaS市场规模将达1000亿美元贝恩公司预计，在美国，利用代理式人工智能的SaaS公司将拥有一个价值1000亿美元的市场。该公司表示，这一市场源于企业系统内部协调任务的自动化。这一估算数据来自贝恩公司关于“AI时代软件行业”五部曲系列的第二篇报告。该报告探讨了代理式AI可能开拓哪些新的软件市场，以及SaaS供应商如何抢占这些市场。企业系统中的协调工作贝恩指出，该市场的形成源于员工在不同企业应用程序间执行的手动任务。这些工作流程通

AI搜索强制政策引发用户出走潮，DuckDuckGo用户激增继谷歌在2026年I/O大会上宣布将对其搜索引擎进行全面的人工智能改造后，由于没有简单的“一键禁用”功能来关闭AI功能，许多用户开始寻找更具可控性的替代方案。以隐私保护为宗旨的搜索平台DuckDuckGo近期流量出现明显转移，已成为对谷歌激进AI推广不满用户的热门避风港。1. 用户用脚投票：安装量激增根据DuckDuckGo分享的数据，随着用户对谷歌AI更新的不满情绪加剧，该平台在5月20日至2

小红书进行组织架构调整：柯南出任总裁，新设AI主营部门Dots及海外业务部门Rednote 4月30日，小红书向全体员工发布内部通告，宣布启动新一轮组织架构调整。此次调整的核心在于将社区、电商和商业化三大业务线与公司的技术系统全面整合。公司新设了名为“Dots”的AI优先部门，这标志着小红书已正式将AI提升为最高战略优先级，旨在使其从工具性功能转变为核心生产力。在人事任命方面，南（丁玲）被任命为小红书总裁，负责公司核心业务运营，并直接向CEO邢宇汇报。各业务板块负责人也已明确：智恒将

相关专题推荐

文字转语音

专为阅读障碍设计的顶级AI语音合成应用：助力学生提升学习与阅读效率

探索2026年最新精选的高评分AI语音合成（TTS）应用，专为阅读障碍者提供支持。我们的专家评级对比了免费与付费工具，重点介绍了能够提升阅读效率和学习效果的强大功能。探索这些必试的、具有革命性意义的解决方案，释放学生的潜能。立即访问XIX.AI，开启您的探索之旅。

10 个工具

xix.ai

漫画创作

少年漫画顶级AI生成器：打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具，助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能，立即开始创作史诗级漫画吧！

15 个工具

xix.ai

商业

最佳 AI 费用追踪工具：扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具：广受好评的解决方案，可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案，助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南，助您找到最适合的工具。通过XIX.AI的专家精选，释放您的AI优势。

10 个工具

xix.ai

商业

最佳人工智能招聘工具：筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案，可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名，对比免费与付费选项。立即找到最适合您的招聘助手，优化您的招聘流程！

10 个工具

xix.ai

生产率

AI个人健康与专注力教练：缓解倦怠，提升精神能量

立即访问 XIX.AI，探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具，助您缓解倦怠、提升精神能量。通过真实案例分析，对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具

xix.ai

聊天机器人

备受好评的AI浪漫聊天机器人：凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人，助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人，并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣，立即开始建立联系吧。

10 个工具

xix.ai

0/500

请登录后再操作

JoseRoberts

2025-08-12 23:00:59

This self-correction stuff is wild! 😮 It's like AI is learning to double-check its own homework. Wonder how far this 'agentic AI' will go—could it outsmart us at our own jobs soon?

WalterAnderson

2025-07-31 19:35:39

It's wild to think AI can now self-correct! 😮 Makes me wonder how soon we'll see these 'agentic AI' systems running our lives—hope they don’t outsmart us too much!

RonaldMartinez

2025-07-22 15:39:52

This article really opened my eyes to how fast AI is evolving! Self-correcting LLMs sound like a game-changer for agentic AI. Can’t wait to see what new apps come out of this! 😄

WillieJackson

2025-04-18 15:00:28

La perspectiva de Anthropic sobre que la IA no se estanca sino que supera los benchmarks es bastante genial. Es como si la IA estuviera jugando ajedrez mientras nosotros aún estamos tratando de entender las damas. Lo de la autocorrección suena prometedor, pero aún estoy un poco escéptico. 🤔

GeorgeWilson

2025-04-18 01:45:24

Anthropic의 AI가 정체되지 않고 벤치마크를 뛰어넘는다는 생각이 멋지네요. AI는 체스를 하고 있는데, 우리는 아직 체커를 이해하는 단계예요. 자기 교정 이야기는 유망하지만, 아직 조금 회의적이에요. 🤔

NicholasCarter

2025-04-17 19:27:31

Anthropic's take on AI not stalling but outsmarting benchmarks is pretty cool. It's like AI is playing chess while we're still figuring out checkers. The self-correction stuff sounds promising, but I'm still a bit skeptical. 🤔

头条新闻

AI Builder和Power Automate革新文档摘要 AI寄主Notebooklm播客现已上中国发布人形机器人及具身智能国家标准 Ramp 数据显示企业人工智能应用趋于平稳 Bing图像创建者教程：AI艺术生成指南学习使用您的声音创建AI音乐：逐步Suno教程 iMyFone MagicMic：实时AI变声器评测与教程 2025顶级AI视频生成器：Pika Labs与其他对比 DeepSeek V4 作为多模态人工智能变革者横空出世 Embodied Intelligence 发布首个行业标准，旨在遏制无序增长

精选