三星紧凑型人工智能模型在推理能力上胜过大型竞争对手

首页

新闻

2025-12-03

BrianThomas

# ai # models # Samsung

三星公司的一位人工智能研究人员发表了一篇新论文，概述了紧凑型网络在处理复杂推理任务时如何超越大规模大型语言模型（LLM）。

在争夺人工智能主导地位的竞赛中，业界的流行口号一直是 "越大越好"。当科技巨头们投资数十亿美元开发越来越大的模型时，三星SAIL蒙特利尔分公司的亚历克西娅-乔利科尔-马丁诺（Alexia Jolicoeur-Martineau）提出了一种不同的、更高效的方法，即使用微小递归模型（TRM）。

TRM只需700万个参数，不到顶级LLM的0.01%，就能在ARC-AGI智力测验等声名狼藉的挑战性基准上取得新的一流结果。三星的研究结果挑战了 "规模是推动人工智能发展的唯一途径 "这一普遍观点，提出了一种更具可持续性和参数效率的替代方案。

克服规模限制

虽然 LLM 擅长生成类似人类的文本，但它们处理复杂、多步骤推理的能力往往比较脆弱。由于 LLM 会逐个标记生成响应，因此早期的一个错误可能会影响整个解决方案，导致最终答案不正确。

思维链（Chain-of-Thought）等技术可以将问题一步步分解，从而缓解这一问题。然而，这些方法的计算成本很高，通常需要大量高质量的推理数据，而且仍然可能产生有缺陷的逻辑。即使有了这些改进，LLM 也难以解决那些要求逻辑执行完美无瑕的难题。

三星的研究建立在最近的分层推理模型（HRM）基础之上。HRM 使用两个小型神经网络，以不同频率递归完善答案。尽管前景看好，但该模型非常复杂，依赖于不确定的生物论据和并非始终适用的定点定理。

与 HRM 的双网络结构不同，TRM 采用了单个紧凑型网络，可递归增强其内部推理和建议答案。

该模型接收问题、初始答案猜测和潜在推理特征。然后，它通过多个步骤来完善基于所有三个输入的推理。利用改进后的推理，它可以更新最终的答案预测。整个过程最多可重复 16 次，从而使模型能够以参数效率极高的方式逐步进行自我修正。

研究发现，与四层网络相比，两层网络的泛化效果要好得多。较小的设计似乎可以防止过度拟合--这是在有限的专业数据集上进行训练时常见的问题。

TRM 还消除了其前身的复杂数学假设。最初的 HRM 模型必须假设函数收敛到一个固定点，才能证明其训练的合理性。TRM 绕过了这一问题，通过其完整的递归过程进行反向传播--这一改变极大地提高了性能，在消融测试中将数独-极限基准准确率从 56.5% 提高到 87.4%。

三星模型以更少的资源刷新人工智能基准

结果令人震惊。在仅使用 1,000 个训练示例的 Sudoku-Extreme 数据集上，TRM 的测试准确率达到了 87.4%，与 HRM 的 55% 相比实现了重大飞跃。在 "迷宫-困难"（Maze-Hard）数据集上，TRM 的测试准确率为 85.3%，而 HRM 为 74.5%。

最值得注意的是，TRM 在抽象与推理语料库（ARC-AGI）上取得了显著进步，该语料库是为评估人工智能中真正的流体智能而设计的基准。仅使用 700 万个参数，TRM 在 ARC-AGI-1 上的准确率就达到了 44.6%，在 ARC-AGI-2 上达到了 7.8%。这超过了使用 2700 万个参数的 HRM，甚至超过了世界上许多最大的 LLM。相比之下，Gemini 2.5 Pro 在 ARC-AGI-2 中的得分率仅为 4.9%。

TRM 的训练过程也得到了优化。简化了称为 ACT 的自适应机制，该机制用于确定模型何时已充分改进了答案，从而可以继续前进，从而消除了在每个训练步骤中进行代价高昂的第二次前向传递的需要。这一调整并未损害整体泛化效果。

三星的研究有力地反驳了建立越来越庞大的人工智能模型的趋势。它表明，通过设计能够进行迭代推理和自我修正的架构，只需使用极少的计算资源，就能解决极其困难的问题。

另请参见：谷歌新人工智能代理重写代码，自动修复漏洞

想从行业领导者那里了解更多有关人工智能和大数据的信息？参加在阿姆斯特丹、加利福尼亚和伦敦举办的人工智能与大数据博览会。这一综合性活动是 TechEx 的一部分，与网络安全博览会等其他主要科技活动同时举行。单击此处了解详情。

AI News 由 TechForge Media 提供技术支持。点击此处了解其他即将举行的企业技术活动和网络研讨会。

WordPress.com 现已支持 AI 助手撰写和发布文章，还有更多功能广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布，将允许人工智能助手在用户网站上起草、编辑和发布内容，同时还能管理评论、更新和修正元数据，并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制，网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能，网站几乎可以完全由人工指导的AI代理来创建和运

Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图 Kakao Mobility 计划内部自主研发 L4 级自动驾驶技术，作为其物理人工智能战略的一部分。在首尔COEX举行的2026世界IT展上，Kakao Mobility副总裁兼物理AI部门负责人金镇奎（Kim Jin-kyu）介绍了该路线图。他的演讲聚焦于物理AI时代基于出行平台构建的自动驾驶服务。据韩联社报道，这场题为“超越构想，付诸行动：AI驱动现实”的活动汇聚了来自17个国家的460

巴里·迪勒：随着通用人工智能的临近，对萨姆·阿尔特曼的信任已无关紧要尽管近期有报道暗示相反的情况，但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周，迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时，为阿尔特曼进行了辩护。此前，阿尔特曼曾遭到一些前同事和董事会成员的指责，称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友，迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言，提问

相关专题推荐

商业