AI扩展突破由专家质疑

社交媒体上有些关于研究人员发现新AI“扩展法则”的讨论,但专家们对此持保留态度。AI扩展法则,更像是非正式指南,显示AI模型在投入更多数据和计算能力后性能提升。直到大约一年前,主流趋势是“预训练”——即在更大数据集上训练更大模型。这仍然有效,但现在又多了两种扩展法则:后训练扩展,专注于调整模型行为;测试时扩展,通过推理时增加计算能力提升模型“推理”能力(例如R1模型)。
最近,谷歌和加州大学伯克利分校的研究人员发表了一篇论文,网上一些人称之为第四法则:“推理时搜索”。该方法让模型同时生成多个可能答案,然后选择最佳答案。研究人员称,这能提升旧模型(如谷歌的Gemini 1.5 Pro)的性能,在科学和数学基准测试中击败OpenAI的o1-preview“推理”模型。
谷歌博士研究员、论文合著者Eric Zhao在X上表示,通过随机采样200个响应并让模型自我验证,Gemini 1.5——他戏称“2024年初古老模型”——能超越o1-preview,甚至接近o1。他指出,自我验证随规模扩大变得更简单,这有些反直觉但很酷。
但并非所有人都信服。阿尔伯塔大学AI研究员兼助理教授Matthew Guzdial对TechCrunch表示,这种方法在有可靠答案评估方式时效果最好。但大多数问题并非如此简单。他说:“如果我们无法编写代码定义需求,就无法使用[推理时]搜索。对于通用语言交互,我们无法做到……这通常不是解决大多数问题的好方法。”
Zhao回应称,他们的论文实际研究了没有明确答案评估方式的情况,模型需自行判断。他认为,有无明确评估方式的差距会随规模扩大而缩小。
伦敦国王学院研究学者Mike Cook支持Guzdial的观点,称推理时搜索并未真正提升模型推理能力,更像是弥补模型自信错误的权宜之计。他指出,如果模型有5%的错误率,检查200次尝试应更容易发现错误。
这对AI行业可能有些打击,行业一直在寻找不花大价钱提升模型“推理”能力的方法。论文作者指出,推理模型解决一个数学问题可能耗费数千美元计算成本。
扩展技术的研究远未结束。
更新于3月20日太平洋时间上午5:12:补充了研究合著者Eric Zhao的评论,他对一位独立研究者的批评意见表示异议。
相关文章
谷歌云为科学研究和发现的突破提供动力
数字革命正在通过前所未有的计算能力改变科学方法。现在,尖端技术增强了理论框架和实验室实验,通过复杂的模拟和大数据分析推动了各学科的突破。通过对基础研究、可扩展云架构和人工智能开发的战略性投资,我们建立了一个加速科学进步的生态系统。我们在制药研究、气候建模和纳米技术等领域做出了突破性创新,并辅之以世界一流的计算基础设施、云原生软件解决方案和新一代生成式人工智能平台。谷歌 DeepMind 的研究实力
人工智能加速科学研究,产生更大的现实影响
谷歌一直将人工智能作为科学进步的催化剂,如今的发现速度已经达到了非凡的新水平。这种加速改变了研究周期,以前所未有的速度将基础性突破转化为实际应用。人工智能不仅不会取代人类的创造力,反而会成为人类潜能的强大放大器。我们的研究人员利用人工智能解决基础科学问题,拓展我们的集体知识,同时为全球挑战开发创新解决方案。通过与学术机构和行业合作伙伴的密切合作,我们致力于通过与更广泛的研究社区共享工具和资源,使这
人工智能中的伦理:应对自动化中的偏见和合规挑战
随着自动化深入各行各业,伦理方面的考虑正成为至关重要的优先事项。决策算法现在影响着社会的重要方面,包括就业机会、金融服务、医疗保健和法律程序,这就需要严格的伦理框架。如果没有适当的管理,这些强大的系统就有可能扩大现有的不平等并造成广泛的伤害。了解人工智能系统中的偏见算法偏见的根源往往在于有缺陷的训练数据。历史上的歧视模式可能会在机器学习模型中永久化--例如,招聘工具会根据过去决定中反映出的受保护特
评论 (35)
0/200
DanielThomas
2025-04-24 07:49:41
AI 스케일링 돌파구는 멋지게 들리지만, 전문가들은 회의적이에요. 🤔 이제 뭘 믿어야 할지 모르겠어요. 그냥 과대광고일까요? 지켜볼게요, 하지만 기대는 하지 않을게요. 😴
0
BenRoberts
2025-04-24 02:12:49
This AI scaling law thing sounds cool, but it's hard to get excited when experts are so skeptical. It's like they're saying, 'Sure, it's interesting, but let's not get carried away.' I guess we'll see if it's the real deal or just another hype train. 🤔
0
PatrickMartinez
2025-04-22 03:31:56
Essa história de lei de escalabilidade de IA parece legal, mas é difícil se empolgar quando os especialistas são tão céticos. Parece que eles estão dizendo, 'Sim, é interessante, mas não vamos nos empolgar muito'. Vamos ver se é verdade ou só mais um hype. 🤔
0
JohnYoung
2025-04-20 08:36:43
AI 스케일링 법칙에 대한 소식은 흥미롭지만, 전문가들이 회의적이라서 흥분하기 어려워. '재미있지만 너무 기대하지 마세요'라는 느낌이야. 실제로 어떻게 될지 지켜봐야겠네. 🤔
0
HaroldMoore
2025-04-17 19:24:24
AIのスケーリングブレイクスルーは面白そうだけど、専門家は懐疑的。🤔 もう何を信じればいいのかわからない。ただの誇大広告かも?注目はするけど、期待はしないよ。😴
0
AlbertLee
2025-04-16 23:25:29
El avance en la escala de IA suena genial, pero todavía no lo compro. Es todo un hype en las redes sociales, pero los expertos son escépticos. Esperaré más pruebas sólidas antes de subirme al carro. 🤔
0
社交媒体上有些关于研究人员发现新AI“扩展法则”的讨论,但专家们对此持保留态度。AI扩展法则,更像是非正式指南,显示AI模型在投入更多数据和计算能力后性能提升。直到大约一年前,主流趋势是“预训练”——即在更大数据集上训练更大模型。这仍然有效,但现在又多了两种扩展法则:后训练扩展,专注于调整模型行为;测试时扩展,通过推理时增加计算能力提升模型“推理”能力(例如R1模型)。
最近,谷歌和加州大学伯克利分校的研究人员发表了一篇论文,网上一些人称之为第四法则:“推理时搜索”。该方法让模型同时生成多个可能答案,然后选择最佳答案。研究人员称,这能提升旧模型(如谷歌的Gemini 1.5 Pro)的性能,在科学和数学基准测试中击败OpenAI的o1-preview“推理”模型。
谷歌博士研究员、论文合著者Eric Zhao在X上表示,通过随机采样200个响应并让模型自我验证,Gemini 1.5——他戏称“2024年初古老模型”——能超越o1-preview,甚至接近o1。他指出,自我验证随规模扩大变得更简单,这有些反直觉但很酷。
但并非所有人都信服。阿尔伯塔大学AI研究员兼助理教授Matthew Guzdial对TechCrunch表示,这种方法在有可靠答案评估方式时效果最好。但大多数问题并非如此简单。他说:“如果我们无法编写代码定义需求,就无法使用[推理时]搜索。对于通用语言交互,我们无法做到……这通常不是解决大多数问题的好方法。”
Zhao回应称,他们的论文实际研究了没有明确答案评估方式的情况,模型需自行判断。他认为,有无明确评估方式的差距会随规模扩大而缩小。
伦敦国王学院研究学者Mike Cook支持Guzdial的观点,称推理时搜索并未真正提升模型推理能力,更像是弥补模型自信错误的权宜之计。他指出,如果模型有5%的错误率,检查200次尝试应更容易发现错误。
这对AI行业可能有些打击,行业一直在寻找不花大价钱提升模型“推理”能力的方法。论文作者指出,推理模型解决一个数学问题可能耗费数千美元计算成本。
扩展技术的研究远未结束。
更新于3月20日太平洋时间上午5:12:补充了研究合著者Eric Zhao的评论,他对一位独立研究者的批评意见表示异议。



AI 스케일링 돌파구는 멋지게 들리지만, 전문가들은 회의적이에요. 🤔 이제 뭘 믿어야 할지 모르겠어요. 그냥 과대광고일까요? 지켜볼게요, 하지만 기대는 하지 않을게요. 😴




This AI scaling law thing sounds cool, but it's hard to get excited when experts are so skeptical. It's like they're saying, 'Sure, it's interesting, but let's not get carried away.' I guess we'll see if it's the real deal or just another hype train. 🤔




Essa história de lei de escalabilidade de IA parece legal, mas é difícil se empolgar quando os especialistas são tão céticos. Parece que eles estão dizendo, 'Sim, é interessante, mas não vamos nos empolgar muito'. Vamos ver se é verdade ou só mais um hype. 🤔




AI 스케일링 법칙에 대한 소식은 흥미롭지만, 전문가들이 회의적이라서 흥분하기 어려워. '재미있지만 너무 기대하지 마세요'라는 느낌이야. 실제로 어떻게 될지 지켜봐야겠네. 🤔




AIのスケーリングブレイクスルーは面白そうだけど、専門家は懐疑的。🤔 もう何を信じればいいのかわからない。ただの誇大広告かも?注目はするけど、期待はしないよ。😴




El avance en la escala de IA suena genial, pero todavía no lo compro. Es todo un hype en las redes sociales, pero los expertos son escépticos. Esperaré más pruebas sólidas antes de subirme al carro. 🤔












