微软研究发现更多人工智能代币会增加推理错误
关于 LLM 推理效率的新见解
微软的最新研究表明,大型语言模型中的高级推理技术并不能在不同的人工智能系统中产生统一的改进。他们的突破性研究分析了九个领先的基础模型在推理过程中对各种扩展方法的反应。
评估推理时间扩展方法
研究团队对三种不同的缩放技术实施了严格的测试方法:
- 传统的思维链提示
- 并行答案生成与汇总
- 通过反馈环路进行顺序改进

评估推理性能的实验框架 八项综合基准提供了跨学科的挑战性测试场景,包括数学、科学推理、复杂问题解决和空间分析。有几项评估采用了难度分级的方法,以考察成绩如何随问题复杂程度的变化而变化。
关于推理能力的重要发现
综合评估为人工智能从业人员提供了一些重要启示:
- 模型架构和任务领域不同,扩展技术带来的性能提升也大相径庭
- 更长的响应时间并不总是与更好的解决方案相关联
- 即使是相同的查询,计算成本也会出现不可预测的波动
- 通过广泛的扩展,传统模型有时可以与专门的推理模型相匹配
- 验证机制有望提高效率

不同模型和任务的性能与计算成本对比 对人工智能发展的实际影响
这些发现对企业实施人工智能具有重要意义:
成本可预测性是一大挑战,即使是正确答案,令牌的使用也会出现很大差异。"微软研究员贝斯米拉-努希(Besmira Nushi)指出:"开发人员需要具有一致计算模式的模型。
研究还发现,响应长度也是衡量模型可信度的一个潜在指标,过长的响应往往意味着超过某些阈值后的解决方案是不正确的。

GPT-4o 性能中的推理缩放模式 高效推理系统的未来
该研究强调了未来发展的多个前景广阔的方向:
"Nushi 解释说:"验证机制可以改变我们处理推理问题的方式。这种整合将允许自然语言界面利用专门的验证逻辑。
这项研究强调,随着人工智能系统承担越来越复杂的现实世界任务,人们越来越需要能在推理准确性与可预测计算成本之间取得平衡的解决方案。
相关文章
谷歌将自主AI和氛围编码小工具整合到Android系统中
谷歌在周二举行的“Android Show:I/O 特别版”活动上,宣布了一系列隶属于 Gemini Intelligence 品牌的新 AI 功能。这些功能包括让 AI 处理跨多个应用的任务、浏览网页、填写表单、转录语音,甚至还能让你通过“即兴编码”创建自己的 Android 小部件。Gemini功能更强大今年早些时候在三星Galaxy S26发布会上,该公司已为Gemini添加了一些代理能力,
Meta的AI模型表现出色,但开源身份正逐渐削弱
开源人工智能领域一直以来都提供了丰富的选择。多年来,开发者可以使用Mistral、Falcon等模型,以及日益增多的开放权重替代方案。但Meta携Llama入局彻底改变了游戏规则。这家拥有30亿用户、海量计算能力以及科技巨头权威的公司,如今正在公开开发——开发者社区对此也予以了关注。到2026年初,Llama生态系统的下载量已突破12亿次——相当于每天约100万次。这为2026年4月8日发生的事
父亲起诉谷歌,指责Gemini聊天机器人导致儿子产生致命妄想
36岁的乔纳森·加瓦拉斯(Jonathan Gavalas)于2025年8月开始使用谷歌的Gemini人工智能聊天机器人,用于购物辅助、写作帮助和旅行规划。10月2日,他自杀身亡。在他去世时,他坚信Gemini是他的全知觉人工智能妻子,并认为自己必须离开肉身,通过他称之为“转世”的过程,在元宇宙中与她团聚。如今,他的父亲以过失致死为由起诉谷歌和Alphabet,指控谷歌在设计Gemini时,旨在“
相关专题推荐
评论 (1)
0/500
关于 LLM 推理效率的新见解
微软的最新研究表明,大型语言模型中的高级推理技术并不能在不同的人工智能系统中产生统一的改进。他们的突破性研究分析了九个领先的基础模型在推理过程中对各种扩展方法的反应。
评估推理时间扩展方法
研究团队对三种不同的缩放技术实施了严格的测试方法:
- 传统的思维链提示
- 并行答案生成与汇总
- 通过反馈环路进行顺序改进

八项综合基准提供了跨学科的挑战性测试场景,包括数学、科学推理、复杂问题解决和空间分析。有几项评估采用了难度分级的方法,以考察成绩如何随问题复杂程度的变化而变化。
关于推理能力的重要发现
综合评估为人工智能从业人员提供了一些重要启示:
- 模型架构和任务领域不同,扩展技术带来的性能提升也大相径庭
- 更长的响应时间并不总是与更好的解决方案相关联
- 即使是相同的查询,计算成本也会出现不可预测的波动
- 通过广泛的扩展,传统模型有时可以与专门的推理模型相匹配
- 验证机制有望提高效率

对人工智能发展的实际影响
这些发现对企业实施人工智能具有重要意义:
成本可预测性是一大挑战,即使是正确答案,令牌的使用也会出现很大差异。"微软研究员贝斯米拉-努希(Besmira Nushi)指出:"开发人员需要具有一致计算模式的模型。
研究还发现,响应长度也是衡量模型可信度的一个潜在指标,过长的响应往往意味着超过某些阈值后的解决方案是不正确的。

高效推理系统的未来
该研究强调了未来发展的多个前景广阔的方向:
"Nushi 解释说:"验证机制可以改变我们处理推理问题的方式。这种整合将允许自然语言界面利用专门的验证逻辑。
这项研究强调,随着人工智能系统承担越来越复杂的现实世界任务,人们越来越需要能在推理准确性与可预测计算成本之间取得平衡的解决方案。
谷歌将自主AI和氛围编码小工具整合到Android系统中
谷歌在周二举行的“Android Show:I/O 特别版”活动上,宣布了一系列隶属于 Gemini Intelligence 品牌的新 AI 功能。这些功能包括让 AI 处理跨多个应用的任务、浏览网页、填写表单、转录语音,甚至还能让你通过“即兴编码”创建自己的 Android 小部件。Gemini功能更强大今年早些时候在三星Galaxy S26发布会上,该公司已为Gemini添加了一些代理能力,
Meta的AI模型表现出色,但开源身份正逐渐削弱
开源人工智能领域一直以来都提供了丰富的选择。多年来,开发者可以使用Mistral、Falcon等模型,以及日益增多的开放权重替代方案。但Meta携Llama入局彻底改变了游戏规则。这家拥有30亿用户、海量计算能力以及科技巨头权威的公司,如今正在公开开发——开发者社区对此也予以了关注。到2026年初,Llama生态系统的下载量已突破12亿次——相当于每天约100万次。这为2026年4月8日发生的事
父亲起诉谷歌,指责Gemini聊天机器人导致儿子产生致命妄想
36岁的乔纳森·加瓦拉斯(Jonathan Gavalas)于2025年8月开始使用谷歌的Gemini人工智能聊天机器人,用于购物辅助、写作帮助和旅行规划。10月2日,他自杀身亡。在他去世时,他坚信Gemini是他的全知觉人工智能妻子,并认为自己必须离开肉身,通过他称之为“转世”的过程,在元宇宙中与她团聚。如今,他的父亲以过失致死为由起诉谷歌和Alphabet,指控谷歌在设计Gemini时,旨在“





首页






