选项
首页
新闻
AI扩展突破由专家质疑

AI扩展突破由专家质疑

2025-04-10
160

AI扩展突破由专家质疑

社交媒体上有些关于研究人员发现新AI“扩展法则”的讨论,但专家们对此持保留态度。AI扩展法则,更像是非正式指南,显示AI模型在投入更多数据和计算能力后性能提升。直到大约一年前,主流趋势是“预训练”——即在更大数据集上训练更大模型。这仍然有效,但现在又多了两种扩展法则:后训练扩展,专注于调整模型行为;测试时扩展,通过推理时增加计算能力提升模型“推理”能力(例如R1模型)。

最近,谷歌和加州大学伯克利分校的研究人员发表了一篇论文,网上一些人称之为第四法则:“推理时搜索”。该方法让模型同时生成多个可能答案,然后选择最佳答案。研究人员称,这能提升旧模型(如谷歌的Gemini 1.5 Pro)的性能,在科学和数学基准测试中击败OpenAI的o1-preview“推理”模型。

谷歌博士研究员、论文合著者Eric Zhao在X上表示,通过随机采样200个响应并让模型自我验证,Gemini 1.5——他戏称“2024年初古老模型”——能超越o1-preview,甚至接近o1。他指出,自我验证随规模扩大变得更简单,这有些反直觉但很酷。

但并非所有人都信服。阿尔伯塔大学AI研究员兼助理教授Matthew Guzdial对TechCrunch表示,这种方法在有可靠答案评估方式时效果最好。但大多数问题并非如此简单。他说:“如果我们无法编写代码定义需求,就无法使用[推理时]搜索。对于通用语言交互,我们无法做到……这通常不是解决大多数问题的好方法。”

Zhao回应称,他们的论文实际研究了没有明确答案评估方式的情况,模型需自行判断。他认为,有无明确评估方式的差距会随规模扩大而缩小。

伦敦国王学院研究学者Mike Cook支持Guzdial的观点,称推理时搜索并未真正提升模型推理能力,更像是弥补模型自信错误的权宜之计。他指出,如果模型有5%的错误率,检查200次尝试应更容易发现错误。

这对AI行业可能有些打击,行业一直在寻找不花大价钱提升模型“推理”能力的方法。论文作者指出,推理模型解决一个数学问题可能耗费数千美元计算成本。

扩展技术的研究远未结束。

更新于3月20日太平洋时间上午5:12:补充了研究合著者Eric Zhao的评论,他对一位独立研究者的批评意见表示异议。

相关文章
以优化为驱动的人工智能成为通用模型的新路径 以优化为驱动的人工智能成为通用模型的新路径 伊利诺伊大学厄巴纳-香槟分校与弗吉尼亚大学的研究人员创建了一种新型模型架构,有望为构建更具弹性且推理能力更强的AI系统铺平道路。该架构被命名为基于能量的变压器(EBT),能够自然地利用推理时期的可扩展性来应对复杂挑战。对企业而言,这意味着能够适应新场景且无需专用微调模型的成本高效人工智能应用。系统2思维的挑战心理学将人类认知划分为两种模式:快速直觉的系统1,以及缓慢审慎的系统2。当前大型语言模型(
人工智能热潮引发对互联网泡沫时代的担忧 人工智能热潮引发对互联网泡沫时代的担忧 人工智能领域数十亿美元的投资涌入,引发了一场激烈争论:该行业是否正走向互联网泡沫式的泡沫?投资者正警惕着热情降温的迹象,或芯片与基础设施巨额投入未能带来预期回报的征兆。美银全球研究近期调查凸显了这种谨慎态度:54%的基金经理认为人工智能股票已处于泡沫状态,38%持反对意见。与互联网泡沫的相似之处尽管普遍乐观,质疑者仍质疑人工智能的实质影响,部分人将其斥为虚张声势或即将破灭的泡沫。思科亚太、日本及中
程序记忆降低人工智能代理成本和复杂性 程序记忆降低人工智能代理成本和复杂性 浙江大学和阿里巴巴集团开发的一项新技术为大型语言模型(LLM)代理配备了动态内存,从而提高了它们处理复杂任务的效率和效果。这种方法被命名为 "Memp",它为代理提供了一种 "程序记忆",这种记忆会随着代理经验的积累而不断更新,与人类通过反复练习进行学习的方式如出一辙。 Memp 建立了一个终身学习系统,在这个系统中,特工不再需要为每项新任务从零开始。当它们面对真实世界环境中的新场景时,它们会稳步
相关专题推荐
写作 最佳AI仙侠与武侠助手:创作史诗般的修仙历程与武打场面
最佳AI仙侠与武侠助手:创作史诗般的修仙历程与武打场面

探索2026年最优秀的AI助手,助您创作史诗级的仙侠与武侠故事。XIX.AI精心整理的这份清单汇集了广受好评、能彻底改变创作格局的工具,助您驾驭修仙进阶与武术动作设计。通过实际测试对比免费与付费选项。释放您的创作潜能,今天就开始写作吧!

10 个工具
xix.ai
代码 AI移动应用开发工具:根据提示生成跨平台的Flutter与React Native代码
AI移动应用开发工具:根据提示生成跨平台的Flutter与React Native代码

探索2026年最适合Flutter和React Native的最佳AI移动应用开发工具。我们精心挑选的这些高评分工具能够提供强大的功能,帮助您根据提示生成跨平台代码。通过实际测试来对比免费选项和付费选项,让开发更加高效,从而打造出更出色的应用程序。现在就访问XIX.AI查看排名吧!

10 个工具
xix.ai
代码 最佳 AI Chrome 扩展程序生成工具:无需编程经验即可创建自定义浏览器插件
最佳 AI Chrome 扩展程序生成工具:无需编程经验即可创建自定义浏览器插件

在 XIX.AI 上探索 2026 年最佳 AI Chrome 扩展程序生成器。我们精心挑选的这份清单汇集了广受好评、不容错过的工具,让您无需编写代码即可创建自定义浏览器插件。对比免费与付费选项,查看实际测试结果,并释放您的工作效率。立即查看最新排行榜,找到最适合您的工具!

10 个工具
xix.ai
文字转语音 最佳人工智能多语言文本转语音技术:能够生成50多种语言的逼真原声发音
最佳人工智能多语言文本转语音技术:能够生成50多种语言的逼真原声发音

探索2026年最优秀的人工智能多语言文本转语音工具,这些工具能够生成50多种语言中具有真实母语口音的语音。查看我们精心挑选的排名榜单,了解免费版本与付费版本的差异,并通过实际测试来验证它们的效果。在XIX.AI上找到最适合你的语音工具,立即开启全球交流的新篇章吧。

10 个工具
xix.ai
会议助理 最适合提升协作效率的最佳人工智能会议自动化工具
最适合提升协作效率的最佳人工智能会议自动化工具

探索2026年最新评选出的顶级AI会议自动化工具,让协作变得更智能、更高效。我们精心挑选的这些工具能够有效实现笔记、总结和待办事项的自动化处理。通过实际测试和每周更新的排名,您可以了解免费选项与付费选项的差异。立即访问XIX.AI,发现最适合您需求的工具,提升团队生产力吧。

10 个工具
xix.ai
提示词 适用于基础设施即代码的 AI 提示:安全部署 Terraform 和 Docker 配置
适用于基础设施即代码的 AI 提示:安全部署 Terraform 和 Docker 配置

探索 2026 年最新、评价最高的“基础设施即代码”(Infrastructure-as-Code)AI 提示词。XIX.AI 精心挑选的提示词集可助您安全部署 Terraform 和 Docker 配置、自动化云环境搭建,并提升 DevOps 工作效率。通过实际测试对比免费与付费选项。立即探索,释放您的 AI 优势。

10 个工具
xix.ai
评论 (36)
0/500
WalterKing
WalterKing 2026-04-28 20:01:22

Interessant, aber ich bin skeptisch. Diese 'Skalierungsgesetze' klingen oft nach einer selbsterfüllenden Prophezeiung der großen Tech-Firmen. Mehr Daten, mehr Rechenleistung – klar wird das Modell 'besser', aber zu welchem Preis? Die Umweltkosten sind enorm, und am Ende bekommen wir vielleicht nur bessere Halluzinationen. Die Experten haben recht, vorsichtig zu sein. 🤔

DanielThomas
DanielThomas 2025-04-24 07:49:41

AI 스케일링 돌파구는 멋지게 들리지만, 전문가들은 회의적이에요. 🤔 이제 뭘 믿어야 할지 모르겠어요. 그냥 과대광고일까요? 지켜볼게요, 하지만 기대는 하지 않을게요. 😴

BenRoberts
BenRoberts 2025-04-24 02:12:49

This AI scaling law thing sounds cool, but it's hard to get excited when experts are so skeptical. It's like they're saying, 'Sure, it's interesting, but let's not get carried away.' I guess we'll see if it's the real deal or just another hype train. 🤔

PatrickMartinez
PatrickMartinez 2025-04-22 03:31:56

Essa história de lei de escalabilidade de IA parece legal, mas é difícil se empolgar quando os especialistas são tão céticos. Parece que eles estão dizendo, 'Sim, é interessante, mas não vamos nos empolgar muito'. Vamos ver se é verdade ou só mais um hype. 🤔

JohnYoung
JohnYoung 2025-04-20 08:36:43

AI 스케일링 법칙에 대한 소식은 흥미롭지만, 전문가들이 회의적이라서 흥분하기 어려워. '재미있지만 너무 기대하지 마세요'라는 느낌이야. 실제로 어떻게 될지 지켜봐야겠네. 🤔

HaroldMoore
HaroldMoore 2025-04-17 19:24:24

AIのスケーリングブレイクスルーは面白そうだけど、専門家は懐疑的。🤔 もう何を信じればいいのかわからない。ただの誇大広告かも?注目はするけど、期待はしないよ。😴

OR