选项
首页
新闻
三星紧凑型人工智能模型在推理能力上胜过大型竞争对手

三星紧凑型人工智能模型在推理能力上胜过大型竞争对手

2025-12-03
73

三星公司的一位人工智能研究人员发表了一篇新论文,概述了紧凑型网络在处理复杂推理任务时如何超越大规模大型语言模型(LLM)。

在争夺人工智能主导地位的竞赛中,业界的流行口号一直是 "越大越好"。当科技巨头们投资数十亿美元开发越来越大的模型时,三星SAIL蒙特利尔分公司的亚历克西娅-乔利科尔-马丁诺(Alexia Jolicoeur-Martineau)提出了一种不同的、更高效的方法,即使用微小递归模型(TRM)。

TRM只需700万个参数,不到顶级LLM的0.01%,就能在ARC-AGI智力测验等声名狼藉的挑战性基准上取得新的一流结果。三星的研究结果挑战了 "规模是推动人工智能发展的唯一途径 "这一普遍观点,提出了一种更具可持续性和参数效率的替代方案。

克服规模限制

虽然 LLM 擅长生成类似人类的文本,但它们处理复杂、多步骤推理的能力往往比较脆弱。由于 LLM 会逐个标记生成响应,因此早期的一个错误可能会影响整个解决方案,导致最终答案不正确。

思维链(Chain-of-Thought)等技术可以将问题一步步分解,从而缓解这一问题。然而,这些方法的计算成本很高,通常需要大量高质量的推理数据,而且仍然可能产生有缺陷的逻辑。即使有了这些改进,LLM 也难以解决那些要求逻辑执行完美无瑕的难题。

三星的研究建立在最近的分层推理模型(HRM)基础之上。HRM 使用两个小型神经网络,以不同频率递归完善答案。尽管前景看好,但该模型非常复杂,依赖于不确定的生物论据和并非始终适用的定点定理。

与 HRM 的双网络结构不同,TRM 采用了单个紧凑型网络,可递归增强其内部推理和建议答案。

该模型接收问题、初始答案猜测和潜在推理特征。然后,它通过多个步骤来完善基于所有三个输入的推理。利用改进后的推理,它可以更新最终的答案预测。整个过程最多可重复 16 次,从而使模型能够以参数效率极高的方式逐步进行自我修正。

研究发现,与四层网络相比,两层网络的泛化效果要好得多。较小的设计似乎可以防止过度拟合--这是在有限的专业数据集上进行训练时常见的问题。

TRM 还消除了其前身的复杂数学假设。最初的 HRM 模型必须假设函数收敛到一个固定点,才能证明其训练的合理性。TRM 绕过了这一问题,通过其完整的递归过程进行反向传播--这一改变极大地提高了性能,在消融测试中将数独-极限基准准确率从 56.5% 提高到 87.4%。

三星模型以更少的资源刷新人工智能基准

结果令人震惊。在仅使用 1,000 个训练示例的 Sudoku-Extreme 数据集上,TRM 的测试准确率达到了 87.4%,与 HRM 的 55% 相比实现了重大飞跃。在 "迷宫-困难"(Maze-Hard)数据集上,TRM 的测试准确率为 85.3%,而 HRM 为 74.5%。

最值得注意的是,TRM 在抽象与推理语料库(ARC-AGI)上取得了显著进步,该语料库是为评估人工智能中真正的流体智能而设计的基准。仅使用 700 万个参数,TRM 在 ARC-AGI-1 上的准确率就达到了 44.6%,在 ARC-AGI-2 上达到了 7.8%。这超过了使用 2700 万个参数的 HRM,甚至超过了世界上许多最大的 LLM。相比之下,Gemini 2.5 Pro 在 ARC-AGI-2 中的得分率仅为 4.9%。

TRM 的训练过程也得到了优化。简化了称为 ACT 的自适应机制,该机制用于确定模型何时已充分改进了答案,从而可以继续前进,从而消除了在每个训练步骤中进行代价高昂的第二次前向传递的需要。这一调整并未损害整体泛化效果。

三星的研究有力地反驳了建立越来越庞大的人工智能模型的趋势。它表明,通过设计能够进行迭代推理和自我修正的架构,只需使用极少的计算资源,就能解决极其困难的问题。

另请参见:谷歌新人工智能代理重写代码,自动修复漏洞

想从行业领导者那里了解更多有关人工智能和大数据的信息?参加在阿姆斯特丹、加利福尼亚和伦敦举办的人工智能与大数据博览会。这一综合性活动是 TechEx 的一部分,与网络安全博览会等其他主要科技活动同时举行。单击此处了解详情。

AI News 由 TechForge Media 提供技术支持。点击此处了解其他即将举行的企业技术活动和网络研讨会。

相关文章
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能 WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能 广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图 Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图 Kakao Mobility 计划内部自主研发 L4 级自动驾驶技术,作为其物理人工智能战略的一部分。在首尔COEX举行的2026世界IT展上,Kakao Mobility副总裁兼物理AI部门负责人金镇奎(Kim Jin-kyu)介绍了该路线图。他的演讲聚焦于物理AI时代基于出行平台构建的自动驾驶服务。据韩联社报道,这场题为“超越构想,付诸行动:AI驱动现实”的活动汇聚了来自17个国家的460
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要 巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要 尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
相关专题推荐
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
聊天机器人 最佳AI调情与对话训练工具:实时提升社交魅力与自信
最佳AI调情与对话训练工具:实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具,查看免费版与付费版的对比,并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具
xix.ai
评论 (0)
0/500
OR