选项
首页
新闻
人类声称AI并不停滞,它超出了基准测试

人类声称AI并不停滞,它超出了基准测试

2025-04-17
108

人类声称AI并不停滞,它超出了基准测试

大型语言模型(LLM)和其他生成式AI技术在自我修正方面取得了显著进展,这为新应用铺平了道路,包括所谓的“代理式AI”,这是由领先的AI模型开发公司Anthropic的副总裁Michael Gerstenhaber所述。。

“它在自我修正、自我推理方面表现得越来越好,”在Anthropic领导API技术的Gerstenhaber在纽约接受彭博智能分析师Anurag Rana采访时分享道。Anthropic是Claude系列LLM的创造者,是OpenAI的GPT模型的直接竞争者。“每隔几个月,我们就发布一个新模型,扩展LLM的功能,”他补充说,强调了行业动态的动态性质,每次模型修订都会解锁新的潜在用途。

AI模型的新功能

Anthropic的最新模型引入了任务规划等功能,使它们能够像人类一样在计算机上执行任务,例如在线订购披萨。Gerstenhaber指出,这种逐步执行任务的方式“昨天还不可行,今天已经触手可及”。

这场讨论还邀请了AI初创公司Scale AI的首席技术官Vijay Karunamunthy,是一场由彭博智能主办的为期一天的会议的一部分,主题为“生成式AI:它能否兑现生产力承诺?”

挑战AI怀疑论

Gerstenhaber的见解挑战了AI怀疑论者的观点,他们认为生成式AI和更广泛的AI领域正在“撞墙”,认为每个新模型迭代的回报递减。例如,AI学者Gary Marcus自2022年以来一直公开表达他的担忧,警告说,仅仅增加AI模型的参数数量不会按比例提高性能。。

然而,Gerstenhaber断言,Anthropic正在推动超越当前AI基准测试所能衡量的边界。他说:“即使某些领域的进展看似放缓,那是因为我们正在解锁全新功能,但我们已经饱和了基准测试以及执行旧任务的能力。”这使得评估当前生成式AI模型的全部能力变得越来越困难。

扩展与学习

Gerstenhaber和Karunamunthy都强调了扩展生成式AI模型以增强其自我修正能力的重要性。Gerstenhaber评论说:“我们确实看到了智能的扩展越来越多。”Karunamunthy补充道:“我们认为规划和推理没有撞墙的一个原因是,我们仍在学习如何构建这些任务,以便模型能够适应新的和多样的环境。”

Gerstenhaber同意这一观点,他说:“我们正处于早期阶段,从应用开发者那里学习他们的需求以及模型的不足之处,然后我们可以将其整合回语言模型中。”

实时学习与适应

据Gerstenhaber称,这一进展很大程度上得益于Anthropic的快速基础研究步伐,以及来自行业反馈的实时学习。他说:“我们正在适应行业告诉我们的需求,实时学习。”

客户通常从较大的模型开始,然后缩小到更简单的模型以适应特定用途。Gerstenhaber解释说:“最初,他们评估一个模型是否足够智能来很好地执行任务,然后是否足够快以满足他们的应用需求,最后是否尽可能具有成本效益。”

相关文章
AI驱动的音乐创作:轻松打造歌曲与视频 AI驱动的音乐创作:轻松打造歌曲与视频 音乐创作可能复杂,需要时间、资源和专业知识。人工智能已转变这一过程,使其简单易用。本指南介绍如何利用AI让任何人都能免费创作独特的歌曲和视觉效果,开启新的创作可能性。我们探索了具有直观界面和先进AI的平台,将您的音乐创意转化为现实,无需高昂成本。关键要点AI可生成完整歌曲,包括人声,而不仅是器乐。Suno AI和Hailuo AI等平台提供免费音乐创作工具。ChatGPT等AI工具可简化歌词创作,
创建AI驱动的着色书:综合指南 创建AI驱动的着色书:综合指南 设计着色书是一项回报丰厚的追求,结合艺术表达与用户放松体验。然而,过程可能劳动密集。幸运的是,AI工具简化了高质量、统一着色页的创建。本指南提供使用AI制作着色书的逐步方法,重点在于一致风格与最佳效率的技术。关键要点使用AI提示工具开发详细、结构化的着色页提示。确保着色书所有页面艺术风格的统一性。生成单一着色页设计的多样化变体。利用Ideogram等AI平台快速、高效创建着色书。优化提示以解决不一
Qodo与Google Cloud合作,为开发者提供免费AI代码审查工具 Qodo与Google Cloud合作,为开发者提供免费AI代码审查工具 Qodo,一家专注于代码质量的以色列AI编码初创公司,已与Google Cloud建立合作关系,以增强AI生成软件的完整性。随着企业越来越依赖AI进行编码,对强大的监督和质量保证工具的需求不断增长。Qodo的首席执行官伊塔马尔·弗里德曼指出,AI生成的代码现已成为现代开发的核心。“想象一个未来,AI编写所有代码;人类无法全部审查,”弗里德曼说。“我们需要系统来确保代码符合预期价值观。”Qodo的创
评论 (8)
0/200
JoseRoberts
JoseRoberts 2025-08-12 23:00:59

This self-correction stuff is wild! 😮 It's like AI is learning to double-check its own homework. Wonder how far this 'agentic AI' will go—could it outsmart us at our own jobs soon?

WalterAnderson
WalterAnderson 2025-07-31 19:35:39

It's wild to think AI can now self-correct! 😮 Makes me wonder how soon we'll see these 'agentic AI' systems running our lives—hope they don’t outsmart us too much!

RonaldMartinez
RonaldMartinez 2025-07-22 15:39:52

This article really opened my eyes to how fast AI is evolving! Self-correcting LLMs sound like a game-changer for agentic AI. Can’t wait to see what new apps come out of this! 😄

WillieJackson
WillieJackson 2025-04-18 15:00:28

La perspectiva de Anthropic sobre que la IA no se estanca sino que supera los benchmarks es bastante genial. Es como si la IA estuviera jugando ajedrez mientras nosotros aún estamos tratando de entender las damas. Lo de la autocorrección suena prometedor, pero aún estoy un poco escéptico. 🤔

GeorgeWilson
GeorgeWilson 2025-04-18 01:45:24

Anthropic의 AI가 정체되지 않고 벤치마크를 뛰어넘는다는 생각이 멋지네요. AI는 체스를 하고 있는데, 우리는 아직 체커를 이해하는 단계예요. 자기 교정 이야기는 유망하지만, 아직 조금 회의적이에요. 🤔

NicholasCarter
NicholasCarter 2025-04-17 19:27:31

Anthropic's take on AI not stalling but outsmarting benchmarks is pretty cool. It's like AI is playing chess while we're still figuring out checkers. The self-correction stuff sounds promising, but I'm still a bit skeptical. 🤔

返回顶部
OR