人类声称AI并不停滞,它超出了基准测试

大型语言模型(LLM)和其他生成式AI技术在自我修正方面取得了显著进展,这为新应用铺平了道路,包括所谓的“代理式AI”,这是由领先的AI模型开发公司Anthropic的副总裁Michael Gerstenhaber所述。。
“它在自我修正、自我推理方面表现得越来越好,”在Anthropic领导API技术的Gerstenhaber在纽约接受彭博智能分析师Anurag Rana采访时分享道。Anthropic是Claude系列LLM的创造者,是OpenAI的GPT模型的直接竞争者。“每隔几个月,我们就发布一个新模型,扩展LLM的功能,”他补充说,强调了行业动态的动态性质,每次模型修订都会解锁新的潜在用途。
AI模型的新功能
Anthropic的最新模型引入了任务规划等功能,使它们能够像人类一样在计算机上执行任务,例如在线订购披萨。Gerstenhaber指出,这种逐步执行任务的方式“昨天还不可行,今天已经触手可及”。
这场讨论还邀请了AI初创公司Scale AI的首席技术官Vijay Karunamunthy,是一场由彭博智能主办的为期一天的会议的一部分,主题为“生成式AI:它能否兑现生产力承诺?”
挑战AI怀疑论
Gerstenhaber的见解挑战了AI怀疑论者的观点,他们认为生成式AI和更广泛的AI领域正在“撞墙”,认为每个新模型迭代的回报递减。例如,AI学者Gary Marcus自2022年以来一直公开表达他的担忧,警告说,仅仅增加AI模型的参数数量不会按比例提高性能。。
然而,Gerstenhaber断言,Anthropic正在推动超越当前AI基准测试所能衡量的边界。他说:“即使某些领域的进展看似放缓,那是因为我们正在解锁全新功能,但我们已经饱和了基准测试以及执行旧任务的能力。”这使得评估当前生成式AI模型的全部能力变得越来越困难。
扩展与学习
Gerstenhaber和Karunamunthy都强调了扩展生成式AI模型以增强其自我修正能力的重要性。Gerstenhaber评论说:“我们确实看到了智能的扩展越来越多。”Karunamunthy补充道:“我们认为规划和推理没有撞墙的一个原因是,我们仍在学习如何构建这些任务,以便模型能够适应新的和多样的环境。”
Gerstenhaber同意这一观点,他说:“我们正处于早期阶段,从应用开发者那里学习他们的需求以及模型的不足之处,然后我们可以将其整合回语言模型中。”
实时学习与适应
据Gerstenhaber称,这一进展很大程度上得益于Anthropic的快速基础研究步伐,以及来自行业反馈的实时学习。他说:“我们正在适应行业告诉我们的需求,实时学习。”
客户通常从较大的模型开始,然后缩小到更简单的模型以适应特定用途。Gerstenhaber解释说:“最初,他们评估一个模型是否足够智能来很好地执行任务,然后是否足够快以满足他们的应用需求,最后是否尽可能具有成本效益。”
相关文章
贝恩预测代理式人工智能自动化领域的SaaS市场规模将达1000亿美元
贝恩公司预计,在美国,利用代理式人工智能的SaaS公司将拥有一个价值1000亿美元的市场。该公司表示,这一市场源于企业系统内部协调任务的自动化。这一估算数据来自贝恩公司关于“AI时代软件行业”五部曲系列的第二篇报告。该报告探讨了代理式AI可能开拓哪些新的软件市场,以及SaaS供应商如何抢占这些市场。企业系统中的协调工作贝恩指出,该市场的形成源于员工在不同企业应用程序间执行的手动任务。这些工作流程通
AI搜索强制政策引发用户出走潮,DuckDuckGo用户激增
继谷歌在2026年I/O大会上宣布将对其搜索引擎进行全面的人工智能改造后,由于没有简单的“一键禁用”功能来关闭AI功能,许多用户开始寻找更具可控性的替代方案。 以隐私保护为宗旨的搜索平台DuckDuckGo近期流量出现明显转移,已成为对谷歌激进AI推广不满用户的热门避风港。1. 用户用脚投票:安装量激增根据DuckDuckGo分享的数据,随着用户对谷歌AI更新的不满情绪加剧,该平台在5月20日至2
小红书进行组织架构调整:柯南出任总裁,新设AI主营部门Dots及海外业务部门Rednote
4月30日,小红书向全体员工发布内部通告,宣布启动新一轮组织架构调整。此次调整的核心在于将社区、电商和商业化三大业务线与公司的技术系统全面整合。 公司新设了名为“Dots”的AI优先部门,这标志着小红书已正式将AI提升为最高战略优先级,旨在使其从工具性功能转变为核心生产力。在人事任命方面,南(丁玲)被任命为小红书总裁,负责公司核心业务运营,并直接向CEO邢宇汇报。 各业务板块负责人也已明确:智恒将
相关专题推荐
评论 (8)
0/500
This self-correction stuff is wild! 😮 It's like AI is learning to double-check its own homework. Wonder how far this 'agentic AI' will go—could it outsmart us at our own jobs soon?
It's wild to think AI can now self-correct! 😮 Makes me wonder how soon we'll see these 'agentic AI' systems running our lives—hope they don’t outsmart us too much!
This article really opened my eyes to how fast AI is evolving! Self-correcting LLMs sound like a game-changer for agentic AI. Can’t wait to see what new apps come out of this! 😄
La perspectiva de Anthropic sobre que la IA no se estanca sino que supera los benchmarks es bastante genial. Es como si la IA estuviera jugando ajedrez mientras nosotros aún estamos tratando de entender las damas. Lo de la autocorrección suena prometedor, pero aún estoy un poco escéptico. 🤔
Anthropic의 AI가 정체되지 않고 벤치마크를 뛰어넘는다는 생각이 멋지네요. AI는 체스를 하고 있는데, 우리는 아직 체커를 이해하는 단계예요. 자기 교정 이야기는 유망하지만, 아직 조금 회의적이에요. 🤔

大型语言模型(LLM)和其他生成式AI技术在自我修正方面取得了显著进展,这为新应用铺平了道路,包括所谓的“代理式AI”,这是由领先的AI模型开发公司Anthropic的副总裁Michael Gerstenhaber所述。。
“它在自我修正、自我推理方面表现得越来越好,”在Anthropic领导API技术的Gerstenhaber在纽约接受彭博智能分析师Anurag Rana采访时分享道。Anthropic是Claude系列LLM的创造者,是OpenAI的GPT模型的直接竞争者。“每隔几个月,我们就发布一个新模型,扩展LLM的功能,”他补充说,强调了行业动态的动态性质,每次模型修订都会解锁新的潜在用途。
AI模型的新功能
Anthropic的最新模型引入了任务规划等功能,使它们能够像人类一样在计算机上执行任务,例如在线订购披萨。Gerstenhaber指出,这种逐步执行任务的方式“昨天还不可行,今天已经触手可及”。
这场讨论还邀请了AI初创公司Scale AI的首席技术官Vijay Karunamunthy,是一场由彭博智能主办的为期一天的会议的一部分,主题为“生成式AI:它能否兑现生产力承诺?”
挑战AI怀疑论
Gerstenhaber的见解挑战了AI怀疑论者的观点,他们认为生成式AI和更广泛的AI领域正在“撞墙”,认为每个新模型迭代的回报递减。例如,AI学者Gary Marcus自2022年以来一直公开表达他的担忧,警告说,仅仅增加AI模型的参数数量不会按比例提高性能。。
然而,Gerstenhaber断言,Anthropic正在推动超越当前AI基准测试所能衡量的边界。他说:“即使某些领域的进展看似放缓,那是因为我们正在解锁全新功能,但我们已经饱和了基准测试以及执行旧任务的能力。”这使得评估当前生成式AI模型的全部能力变得越来越困难。
扩展与学习
Gerstenhaber和Karunamunthy都强调了扩展生成式AI模型以增强其自我修正能力的重要性。Gerstenhaber评论说:“我们确实看到了智能的扩展越来越多。”Karunamunthy补充道:“我们认为规划和推理没有撞墙的一个原因是,我们仍在学习如何构建这些任务,以便模型能够适应新的和多样的环境。”
Gerstenhaber同意这一观点,他说:“我们正处于早期阶段,从应用开发者那里学习他们的需求以及模型的不足之处,然后我们可以将其整合回语言模型中。”
实时学习与适应
据Gerstenhaber称,这一进展很大程度上得益于Anthropic的快速基础研究步伐,以及来自行业反馈的实时学习。他说:“我们正在适应行业告诉我们的需求,实时学习。”
客户通常从较大的模型开始,然后缩小到更简单的模型以适应特定用途。Gerstenhaber解释说:“最初,他们评估一个模型是否足够智能来很好地执行任务,然后是否足够快以满足他们的应用需求,最后是否尽可能具有成本效益。”
AI搜索强制政策引发用户出走潮,DuckDuckGo用户激增
继谷歌在2026年I/O大会上宣布将对其搜索引擎进行全面的人工智能改造后,由于没有简单的“一键禁用”功能来关闭AI功能,许多用户开始寻找更具可控性的替代方案。 以隐私保护为宗旨的搜索平台DuckDuckGo近期流量出现明显转移,已成为对谷歌激进AI推广不满用户的热门避风港。1. 用户用脚投票:安装量激增根据DuckDuckGo分享的数据,随着用户对谷歌AI更新的不满情绪加剧,该平台在5月20日至2
小红书进行组织架构调整:柯南出任总裁,新设AI主营部门Dots及海外业务部门Rednote
4月30日,小红书向全体员工发布内部通告,宣布启动新一轮组织架构调整。此次调整的核心在于将社区、电商和商业化三大业务线与公司的技术系统全面整合。 公司新设了名为“Dots”的AI优先部门,这标志着小红书已正式将AI提升为最高战略优先级,旨在使其从工具性功能转变为核心生产力。在人事任命方面,南(丁玲)被任命为小红书总裁,负责公司核心业务运营,并直接向CEO邢宇汇报。 各业务板块负责人也已明确:智恒将
This self-correction stuff is wild! 😮 It's like AI is learning to double-check its own homework. Wonder how far this 'agentic AI' will go—could it outsmart us at our own jobs soon?
It's wild to think AI can now self-correct! 😮 Makes me wonder how soon we'll see these 'agentic AI' systems running our lives—hope they don’t outsmart us too much!
This article really opened my eyes to how fast AI is evolving! Self-correcting LLMs sound like a game-changer for agentic AI. Can’t wait to see what new apps come out of this! 😄
La perspectiva de Anthropic sobre que la IA no se estanca sino que supera los benchmarks es bastante genial. Es como si la IA estuviera jugando ajedrez mientras nosotros aún estamos tratando de entender las damas. Lo de la autocorrección suena prometedor, pero aún estoy un poco escéptico. 🤔
Anthropic의 AI가 정체되지 않고 벤치마크를 뛰어넘는다는 생각이 멋지네요. AI는 체스를 하고 있는데, 우리는 아직 체커를 이해하는 단계예요. 자기 교정 이야기는 유망하지만, 아직 조금 회의적이에요. 🤔





首页






