选项
首页
新闻
人类声称AI并不停滞,它超出了基准测试

人类声称AI并不停滞,它超出了基准测试

2025-04-17
108

人类声称AI并不停滞,它超出了基准测试

大型语言模型(LLM)和其他生成式AI技术在自我修正方面取得了显著进展,这为新应用铺平了道路,包括所谓的“代理式AI”,这是由领先的AI模型开发公司Anthropic的副总裁Michael Gerstenhaber所述。。

“它在自我修正、自我推理方面表现得越来越好,”在Anthropic领导API技术的Gerstenhaber在纽约接受彭博智能分析师Anurag Rana采访时分享道。Anthropic是Claude系列LLM的创造者,是OpenAI的GPT模型的直接竞争者。“每隔几个月,我们就发布一个新模型,扩展LLM的功能,”他补充说,强调了行业动态的动态性质,每次模型修订都会解锁新的潜在用途。

AI模型的新功能

Anthropic的最新模型引入了任务规划等功能,使它们能够像人类一样在计算机上执行任务,例如在线订购披萨。Gerstenhaber指出,这种逐步执行任务的方式“昨天还不可行,今天已经触手可及”。

这场讨论还邀请了AI初创公司Scale AI的首席技术官Vijay Karunamunthy,是一场由彭博智能主办的为期一天的会议的一部分,主题为“生成式AI:它能否兑现生产力承诺?”

挑战AI怀疑论

Gerstenhaber的见解挑战了AI怀疑论者的观点,他们认为生成式AI和更广泛的AI领域正在“撞墙”,认为每个新模型迭代的回报递减。例如,AI学者Gary Marcus自2022年以来一直公开表达他的担忧,警告说,仅仅增加AI模型的参数数量不会按比例提高性能。。

然而,Gerstenhaber断言,Anthropic正在推动超越当前AI基准测试所能衡量的边界。他说:“即使某些领域的进展看似放缓,那是因为我们正在解锁全新功能,但我们已经饱和了基准测试以及执行旧任务的能力。”这使得评估当前生成式AI模型的全部能力变得越来越困难。

扩展与学习

Gerstenhaber和Karunamunthy都强调了扩展生成式AI模型以增强其自我修正能力的重要性。Gerstenhaber评论说:“我们确实看到了智能的扩展越来越多。”Karunamunthy补充道:“我们认为规划和推理没有撞墙的一个原因是,我们仍在学习如何构建这些任务,以便模型能够适应新的和多样的环境。”

Gerstenhaber同意这一观点,他说:“我们正处于早期阶段,从应用开发者那里学习他们的需求以及模型的不足之处,然后我们可以将其整合回语言模型中。”

实时学习与适应

据Gerstenhaber称,这一进展很大程度上得益于Anthropic的快速基础研究步伐,以及来自行业反馈的实时学习。他说:“我们正在适应行业告诉我们的需求,实时学习。”

客户通常从较大的模型开始,然后缩小到更简单的模型以适应特定用途。Gerstenhaber解释说:“最初,他们评估一个模型是否足够智能来很好地执行任务,然后是否足够快以满足他们的应用需求,最后是否尽可能具有成本效益。”

相关文章
美国将因社交媒体法规制裁外国官员 美国将因社交媒体法规制裁外国官员 美国站出来反对全球数字内容法规美国国务院本周针对欧洲的数字治理政策发出了尖锐的外交斥责,表明在网络平台控制权问题上的紧张局势正在升级。国务卿马可-卢比奥(Marco Rubio)公布了一项新的签证限制政策,该政策针对的是参与美国认为影响美国数字空间的过度审查的外国官员。新签证限制解释根据周三宣布的政策,美国将拒绝被认定正在执行影响美国受保护言论的海外内容法规的外国公民入境。卢比奥强调了两
人工智能驱动的 YouTube 视频摘要器终极指南 人工智能驱动的 YouTube 视频摘要器终极指南 在我们信息丰富的数字环境中,人工智能驱动的 YouTube 视频摘要器已成为高效内容消费不可或缺的工具。本深度指南探讨了如何利用最先进的 NLP 技术(特别是来自 Hugging Face 的 BART 模型与 YouTube 的 Transcript API 相结合)构建复杂的摘要工具。无论您是要开发生产力工具、增强可访问性解决方案,还是要创建教育资源,本指南都能为您提供实现专业级摘要所需的一切
Atlassian 斥资 6.1 亿美元收购浏览器公司,加强开发人员工具 Atlassian 斥资 6.1 亿美元收购浏览器公司,加强开发人员工具 企业生产力软件领导者 Atlassian 宣布,计划以 6.1 亿美元的全现金交易收购创新型浏览器开发商 The Browser Company。这一战略举措旨在通过整合为现代知识工作者量身定制的人工智能功能,彻底改变工作场所的浏览方式。"Atlassian首席执行官兼联合创始人迈克-坎农-布鲁克斯(Mike Cannon-Brookes)表示:"传统浏览器是为休闲网上冲浪而设计的,而不是为当
评论 (8)
0/200
JoseRoberts
JoseRoberts 2025-08-12 23:00:59

This self-correction stuff is wild! 😮 It's like AI is learning to double-check its own homework. Wonder how far this 'agentic AI' will go—could it outsmart us at our own jobs soon?

WalterAnderson
WalterAnderson 2025-07-31 19:35:39

It's wild to think AI can now self-correct! 😮 Makes me wonder how soon we'll see these 'agentic AI' systems running our lives—hope they don’t outsmart us too much!

RonaldMartinez
RonaldMartinez 2025-07-22 15:39:52

This article really opened my eyes to how fast AI is evolving! Self-correcting LLMs sound like a game-changer for agentic AI. Can’t wait to see what new apps come out of this! 😄

WillieJackson
WillieJackson 2025-04-18 15:00:28

La perspectiva de Anthropic sobre que la IA no se estanca sino que supera los benchmarks es bastante genial. Es como si la IA estuviera jugando ajedrez mientras nosotros aún estamos tratando de entender las damas. Lo de la autocorrección suena prometedor, pero aún estoy un poco escéptico. 🤔

GeorgeWilson
GeorgeWilson 2025-04-18 01:45:24

Anthropic의 AI가 정체되지 않고 벤치마크를 뛰어넘는다는 생각이 멋지네요. AI는 체스를 하고 있는데, 우리는 아직 체커를 이해하는 단계예요. 자기 교정 이야기는 유망하지만, 아직 조금 회의적이에요. 🤔

NicholasCarter
NicholasCarter 2025-04-17 19:27:31

Anthropic's take on AI not stalling but outsmarting benchmarks is pretty cool. It's like AI is playing chess while we're still figuring out checkers. The self-correction stuff sounds promising, but I'm still a bit skeptical. 🤔

返回顶部
OR