选项
首页
新闻
AI扩展突破由专家质疑

AI扩展突破由专家质疑

2025-04-10
160

AI扩展突破由专家质疑

社交媒体上有些关于研究人员发现新AI“扩展法则”的讨论,但专家们对此持保留态度。AI扩展法则,更像是非正式指南,显示AI模型在投入更多数据和计算能力后性能提升。直到大约一年前,主流趋势是“预训练”——即在更大数据集上训练更大模型。这仍然有效,但现在又多了两种扩展法则:后训练扩展,专注于调整模型行为;测试时扩展,通过推理时增加计算能力提升模型“推理”能力(例如R1模型)。

最近,谷歌和加州大学伯克利分校的研究人员发表了一篇论文,网上一些人称之为第四法则:“推理时搜索”。该方法让模型同时生成多个可能答案,然后选择最佳答案。研究人员称,这能提升旧模型(如谷歌的Gemini 1.5 Pro)的性能,在科学和数学基准测试中击败OpenAI的o1-preview“推理”模型。

谷歌博士研究员、论文合著者Eric Zhao在X上表示,通过随机采样200个响应并让模型自我验证,Gemini 1.5——他戏称“2024年初古老模型”——能超越o1-preview,甚至接近o1。他指出,自我验证随规模扩大变得更简单,这有些反直觉但很酷。

但并非所有人都信服。阿尔伯塔大学AI研究员兼助理教授Matthew Guzdial对TechCrunch表示,这种方法在有可靠答案评估方式时效果最好。但大多数问题并非如此简单。他说:“如果我们无法编写代码定义需求,就无法使用[推理时]搜索。对于通用语言交互,我们无法做到……这通常不是解决大多数问题的好方法。”

Zhao回应称,他们的论文实际研究了没有明确答案评估方式的情况,模型需自行判断。他认为,有无明确评估方式的差距会随规模扩大而缩小。

伦敦国王学院研究学者Mike Cook支持Guzdial的观点,称推理时搜索并未真正提升模型推理能力,更像是弥补模型自信错误的权宜之计。他指出,如果模型有5%的错误率,检查200次尝试应更容易发现错误。

这对AI行业可能有些打击,行业一直在寻找不花大价钱提升模型“推理”能力的方法。论文作者指出,推理模型解决一个数学问题可能耗费数千美元计算成本。

扩展技术的研究远未结束。

更新于3月20日太平洋时间上午5:12:补充了研究合著者Eric Zhao的评论,他对一位独立研究者的批评意见表示异议。

相关文章
以优化为驱动的人工智能成为通用模型的新路径 以优化为驱动的人工智能成为通用模型的新路径 伊利诺伊大学厄巴纳-香槟分校与弗吉尼亚大学的研究人员创建了一种新型模型架构,有望为构建更具弹性且推理能力更强的AI系统铺平道路。该架构被命名为基于能量的变压器(EBT),能够自然地利用推理时期的可扩展性来应对复杂挑战。对企业而言,这意味着能够适应新场景且无需专用微调模型的成本高效人工智能应用。系统2思维的挑战心理学将人类认知划分为两种模式:快速直觉的系统1,以及缓慢审慎的系统2。当前大型语言模型(
人工智能热潮引发对互联网泡沫时代的担忧 人工智能热潮引发对互联网泡沫时代的担忧 人工智能领域数十亿美元的投资涌入,引发了一场激烈争论:该行业是否正走向互联网泡沫式的泡沫?投资者正警惕着热情降温的迹象,或芯片与基础设施巨额投入未能带来预期回报的征兆。美银全球研究近期调查凸显了这种谨慎态度:54%的基金经理认为人工智能股票已处于泡沫状态,38%持反对意见。与互联网泡沫的相似之处尽管普遍乐观,质疑者仍质疑人工智能的实质影响,部分人将其斥为虚张声势或即将破灭的泡沫。思科亚太、日本及中
程序记忆降低人工智能代理成本和复杂性 程序记忆降低人工智能代理成本和复杂性 浙江大学和阿里巴巴集团开发的一项新技术为大型语言模型(LLM)代理配备了动态内存,从而提高了它们处理复杂任务的效率和效果。这种方法被命名为 "Memp",它为代理提供了一种 "程序记忆",这种记忆会随着代理经验的积累而不断更新,与人类通过反复练习进行学习的方式如出一辙。 Memp 建立了一个终身学习系统,在这个系统中,特工不再需要为每项新任务从零开始。当它们面对真实世界环境中的新场景时,它们会稳步
相关专题推荐
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
聊天机器人 最佳AI调情与对话训练工具:实时提升社交魅力与自信
最佳AI调情与对话训练工具:实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具,查看免费版与付费版的对比,并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具
xix.ai
评论 (36)
0/500
WalterKing
WalterKing 2026-04-28 20:01:22

Interessant, aber ich bin skeptisch. Diese 'Skalierungsgesetze' klingen oft nach einer selbsterfüllenden Prophezeiung der großen Tech-Firmen. Mehr Daten, mehr Rechenleistung – klar wird das Modell 'besser', aber zu welchem Preis? Die Umweltkosten sind enorm, und am Ende bekommen wir vielleicht nur bessere Halluzinationen. Die Experten haben recht, vorsichtig zu sein. 🤔

DanielThomas
DanielThomas 2025-04-24 07:49:41

AI 스케일링 돌파구는 멋지게 들리지만, 전문가들은 회의적이에요. 🤔 이제 뭘 믿어야 할지 모르겠어요. 그냥 과대광고일까요? 지켜볼게요, 하지만 기대는 하지 않을게요. 😴

BenRoberts
BenRoberts 2025-04-24 02:12:49

This AI scaling law thing sounds cool, but it's hard to get excited when experts are so skeptical. It's like they're saying, 'Sure, it's interesting, but let's not get carried away.' I guess we'll see if it's the real deal or just another hype train. 🤔

PatrickMartinez
PatrickMartinez 2025-04-22 03:31:56

Essa história de lei de escalabilidade de IA parece legal, mas é difícil se empolgar quando os especialistas são tão céticos. Parece que eles estão dizendo, 'Sim, é interessante, mas não vamos nos empolgar muito'. Vamos ver se é verdade ou só mais um hype. 🤔

JohnYoung
JohnYoung 2025-04-20 08:36:43

AI 스케일링 법칙에 대한 소식은 흥미롭지만, 전문가들이 회의적이라서 흥분하기 어려워. '재미있지만 너무 기대하지 마세요'라는 느낌이야. 실제로 어떻게 될지 지켜봐야겠네. 🤔

HaroldMoore
HaroldMoore 2025-04-17 19:24:24

AIのスケーリングブレイクスルーは面白そうだけど、専門家は懐疑的。🤔 もう何を信じればいいのかわからない。ただの誇大広告かも?注目はするけど、期待はしないよ。😴

OR