新型人工智能模型速度提升 100 倍,训练数据极少,性能超越 LLM
总部位于新加坡的人工智能初创公司Sapient Intelligence设计出了一种新颖的人工智能架构,它在复杂的推理挑战上可以与大型语言模型(LLM)相媲美,而且在某些情况下还能大幅超越,尽管它使用的模型规模要小得多,消耗的数据也少得多。
这个系统被命名为分层推理模型(HRM),其灵感来自于人脑对缓慢、有条不紊的规划和快速、直观的处理所使用的独立机制。该模型仅使用了现代 LLM 所需的一小部分数据和内存,就取得了令人瞩目的成果。这种效率为企业人工智能部署带来了巨大的潜力,因为在企业人工智能部署中,数据往往是有限的,计算能力也是受限的。
思维链推理的局限性
在面对复杂的任务时,当代的 LLM 大多依赖于思维链(CoT)提示,即把问题分解为基于文本的中间步骤,从而有效地迫使模型在寻找答案的过程中口头表达其思维过程。
虽然 CoT 增强了 LLM 的推理能力,但它也存在固有的弱点。在他们的研究论文中,Sapient Intelligence 团队认为:"CoT 只是推理的权宜之计,而不是真正的解决方案。它依赖于僵化的、人为决定的分解,其中一个错误的步骤或错误的顺序可能会完全破坏整个过程"。
这种对生成明确文本的依赖将模型的推理束缚在标记层面,经常需要庞大的训练数据集,导致回复冗长而缓慢。这种方法还忽略了内部发生的 "潜在推理",这些推理没有直接用文字表达出来。
研究人员认为:"要减少这些密集的数据需求,必须采用一种更精简的方法。
受大脑启发的分层框架
为了超越CoT,研究小组研究了 "潜在推理",即模型使用内部抽象表征来思考问题,而不是产生有形的 "思维标记"。这与人类的认知更为接近;论文提到,"大脑在潜空间中以显著的效率维持着延伸的逻辑推理链,而无需不断地将思维转换回语言"。
然而,在人工智能中实现这种深刻的内部推理是很困难的。仅仅为深度学习模型增加层数经常会引发 "梯度消失 "问题,即学习信号在各层之间逐渐消失,从而阻碍了有效的训练。相反,通过计算迭代的循环设计可能会出现 "早期收敛",即模型在没有彻底检查问题的情况下过早地固定在一个解决方案上。

分层推理模型(HRM)的灵感来自大脑结构 来源:ArXiv 为了寻找一种更优越的方法,Sapient 团队向神经科学寻求指导。"研究人员指出:"人脑提供了一个具有说服力的模型,可以达到当前人工系统所缺乏的计算深度。"它在以不同时间尺度工作的皮层区域中分层构建计算结构,实现了深度、多阶段分析"。
受此影响,他们创建的 HRM 具有两个相互连接的循环模块:一个高级(H)模块用于缓慢、抽象的战略制定,另一个低级(L)模块用于快速、详细的处理。这种安排促进了该团队称之为 "分层收敛 "的机制。从本质上讲,快速的 L 模块处理问题的一个部分,运行几个循环,直到找到一个稳定的局部答案。然后,慢速 H 模块将这一结果纳入其中,完善其总体计划,并为 L 模块分配一个新的、定义更明确的子问题。这就有效地重启了 L 模块,使其不再停滞不前(早期收敛),并使整个系统能够利用避免梯度消失的精简架构,执行一系列扩展的推理阶段。

HRM(左)在计算周期内平稳地收敛于解决方案,避免了早期收敛(中心,RNN)和梯度消失(右,经典深度神经网络) 来源:ArXiv 根据论文所述,"这种机制使 HRM 能够连续执行独立、稳定、嵌套的计算,其中 H 模块指导全局问题解决方法,L 模块则执行每个阶段的密集搜索或细化"。"这种嵌套循环架构使模型能够在其潜在空间中进行深入分析,而不需要扩展的 CoT 提示或海量数据集。
一个合乎逻辑的问题是,这种 "潜在推理 "是否会牺牲可解释性。Sapient Intelligence 创始人兼首席执行官王冠(音译)对这一观点提出了质疑,他澄清说,模型的内部操作是可以解释和说明的,就像 CoT 能够让人深入了解模型的认知一样。他进一步指出,CoT 本身可能并不可靠。"CoT并不能准确地代表模型的真实内部推理,"Wang告诉VentureBeat,他引用的研究表明,模型偶尔会用错误的推理得出正确的答案,反之亦然。"从根本上说,它还是不透明的。"

HRM 如何在不同计算周期内推理迷宫问题的示例 来源:ArXiv 工作中的 HRM
为了评估他们的模型,研究人员将 HRM 与要求密集搜索和回溯的基准进行了比较,如抽象与推理语料库(ARC-AGI)、高难度数独谜题和复杂的迷宫导航任务。
研究结果表明,HRM 能够学会解决即使是复杂的 LLM 也无法解决的问题。例如,在 "极限数独 "和 "高难度迷宫 "测试中,顶级 CoT 模型完全失败,准确率仅为 0%。与此同时,HRM 在每个任务中只训练了 1,000 个示例,就达到了近乎完美的准确率。
在衡量抽象推理和概括能力的 ARC-AGI 基准测试中,27M 参数的 HRM 达到了 40.3%。这一成绩超越了基于 CoT 的著名模型,如规模更大的 o3-mini-high 模型(34.5%)和 Claude 3.7 Sonnet 模型(21.2%)。这一成绩是在没有大量预训练数据集和使用极少量数据的情况下取得的,凸显了其设计的优势和效率。

HRM 在复杂推理任务中的表现优于大型模型 来源:ArXiv 虽然解谜展示了该模型的能力,但它的实际影响却体现在另一类挑战上。Wang 认为,开发人员应该继续使用 LLM 来完成以语言为中心或创造性的任务,但对于 "复杂或确定性任务",HRM 风格的框架可以提供更优越的结果,并减少幻觉。他强调了 "需要复杂决策或长期规划的顺序问题",尤其是在延迟关键领域,如人工智能和机器人,或数据稀少的领域,如科学研究。
在这些情况下,HRM 不仅能找到解决方案,还能通过学习提高解决问题的能力。"在我们的大师级数独测试中...随着训练的继续,人力资源管理所需的步骤会逐渐减少--这就好比一个初学者逐渐成长为专家。
对于企业来说,这就是架构效率影响盈利能力的地方。HRM 的并行计算取代了 CoT 的按顺序、逐个令牌的生产方式,使 Wang 认为 "任务完成速度加快了 100 倍"。这就减少了推理延迟,并能在边缘设备上进行高级推理。
经济效益也相当可观。"Wang表示:"与大型、昂贵和高延迟的API驱动模型相比,像HRM这样的专业推理引擎为特定的复杂推理任务提供了更可行的选择。为了说明这种效率,他提到,训练专业数独模型大约需要两个 GPU 小时,而对于要求苛刻的 ARC-AGI 基准,则需要 50 到 200 个 GPU 小时--这在庞大的基础模型所需的资源中只占极小的份额。在数据和资金都受到限制的情况下,这为解决从物流规划到复杂系统故障排除等专业业务问题创造了机会。
展望未来,Sapient Intelligence 已经开始着手将 HRM 从利基问题解决工具转变为更广泛的通用推理组件。我们正在积极构建基于 HRM 的大脑启发模型,"Wang 说,"我们在医疗保健、气候预测和机器人领域取得了令人鼓舞的早期成果。他暗示说,这些未来的模型将与当前基于文本的系统大不相同,特别是通过整合自我修正功能。
这项研究意味着,对于一系列困惑当今人工智能领军人物的问题,未来的出路可能不是建立更大的模型,而是以最先进的推理系统--人脑--为模型,建立更智能、组织更完善的框架。
相关文章
贝恩预测代理式人工智能自动化领域的SaaS市场规模将达1000亿美元
贝恩公司预计,在美国,利用代理式人工智能的SaaS公司将拥有一个价值1000亿美元的市场。该公司表示,这一市场源于企业系统内部协调任务的自动化。这一估算数据来自贝恩公司关于“AI时代软件行业”五部曲系列的第二篇报告。该报告探讨了代理式AI可能开拓哪些新的软件市场,以及SaaS供应商如何抢占这些市场。企业系统中的协调工作贝恩指出,该市场的形成源于员工在不同企业应用程序间执行的手动任务。这些工作流程通
Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图
Kakao Mobility 计划内部自主研发 L4 级自动驾驶技术,作为其物理人工智能战略的一部分。在首尔COEX举行的2026世界IT展上,Kakao Mobility副总裁兼物理AI部门负责人金镇奎(Kim Jin-kyu)介绍了该路线图。他的演讲聚焦于物理AI时代基于出行平台构建的自动驾驶服务。据韩联社报道,这场题为“超越构想,付诸行动:AI驱动现实”的活动汇聚了来自17个国家的460
随着类人机器人进入试运行阶段,物理人工智能正逐步走进工厂车间
据路透社报道,英国科技公司Humanoid即将向德国工业供应商舍弗勒(Schaeffler)旗下的工厂部署类人机器人。Humanoid发言人表示,根据协议,预计到2032年将有1,000至2,000台机器人部署到舍弗勒的全球制造基地。合同金额尚未披露。首批机器人计划于2026年12月至2027年6月期间,部署在舍弗勒位于德国的两家工厂。 Humanoid首席执行官阿特姆·索科洛夫(Artem S
相关专题推荐
评论 (0)
0/500
总部位于新加坡的人工智能初创公司Sapient Intelligence设计出了一种新颖的人工智能架构,它在复杂的推理挑战上可以与大型语言模型(LLM)相媲美,而且在某些情况下还能大幅超越,尽管它使用的模型规模要小得多,消耗的数据也少得多。
这个系统被命名为分层推理模型(HRM),其灵感来自于人脑对缓慢、有条不紊的规划和快速、直观的处理所使用的独立机制。该模型仅使用了现代 LLM 所需的一小部分数据和内存,就取得了令人瞩目的成果。这种效率为企业人工智能部署带来了巨大的潜力,因为在企业人工智能部署中,数据往往是有限的,计算能力也是受限的。
思维链推理的局限性
在面对复杂的任务时,当代的 LLM 大多依赖于思维链(CoT)提示,即把问题分解为基于文本的中间步骤,从而有效地迫使模型在寻找答案的过程中口头表达其思维过程。
虽然 CoT 增强了 LLM 的推理能力,但它也存在固有的弱点。在他们的研究论文中,Sapient Intelligence 团队认为:"CoT 只是推理的权宜之计,而不是真正的解决方案。它依赖于僵化的、人为决定的分解,其中一个错误的步骤或错误的顺序可能会完全破坏整个过程"。
这种对生成明确文本的依赖将模型的推理束缚在标记层面,经常需要庞大的训练数据集,导致回复冗长而缓慢。这种方法还忽略了内部发生的 "潜在推理",这些推理没有直接用文字表达出来。
研究人员认为:"要减少这些密集的数据需求,必须采用一种更精简的方法。
受大脑启发的分层框架
为了超越CoT,研究小组研究了 "潜在推理",即模型使用内部抽象表征来思考问题,而不是产生有形的 "思维标记"。这与人类的认知更为接近;论文提到,"大脑在潜空间中以显著的效率维持着延伸的逻辑推理链,而无需不断地将思维转换回语言"。
然而,在人工智能中实现这种深刻的内部推理是很困难的。仅仅为深度学习模型增加层数经常会引发 "梯度消失 "问题,即学习信号在各层之间逐渐消失,从而阻碍了有效的训练。相反,通过计算迭代的循环设计可能会出现 "早期收敛",即模型在没有彻底检查问题的情况下过早地固定在一个解决方案上。

为了寻找一种更优越的方法,Sapient 团队向神经科学寻求指导。"研究人员指出:"人脑提供了一个具有说服力的模型,可以达到当前人工系统所缺乏的计算深度。"它在以不同时间尺度工作的皮层区域中分层构建计算结构,实现了深度、多阶段分析"。
受此影响,他们创建的 HRM 具有两个相互连接的循环模块:一个高级(H)模块用于缓慢、抽象的战略制定,另一个低级(L)模块用于快速、详细的处理。这种安排促进了该团队称之为 "分层收敛 "的机制。从本质上讲,快速的 L 模块处理问题的一个部分,运行几个循环,直到找到一个稳定的局部答案。然后,慢速 H 模块将这一结果纳入其中,完善其总体计划,并为 L 模块分配一个新的、定义更明确的子问题。这就有效地重启了 L 模块,使其不再停滞不前(早期收敛),并使整个系统能够利用避免梯度消失的精简架构,执行一系列扩展的推理阶段。

根据论文所述,"这种机制使 HRM 能够连续执行独立、稳定、嵌套的计算,其中 H 模块指导全局问题解决方法,L 模块则执行每个阶段的密集搜索或细化"。"这种嵌套循环架构使模型能够在其潜在空间中进行深入分析,而不需要扩展的 CoT 提示或海量数据集。
一个合乎逻辑的问题是,这种 "潜在推理 "是否会牺牲可解释性。Sapient Intelligence 创始人兼首席执行官王冠(音译)对这一观点提出了质疑,他澄清说,模型的内部操作是可以解释和说明的,就像 CoT 能够让人深入了解模型的认知一样。他进一步指出,CoT 本身可能并不可靠。"CoT并不能准确地代表模型的真实内部推理,"Wang告诉VentureBeat,他引用的研究表明,模型偶尔会用错误的推理得出正确的答案,反之亦然。"从根本上说,它还是不透明的。"

工作中的 HRM
为了评估他们的模型,研究人员将 HRM 与要求密集搜索和回溯的基准进行了比较,如抽象与推理语料库(ARC-AGI)、高难度数独谜题和复杂的迷宫导航任务。
研究结果表明,HRM 能够学会解决即使是复杂的 LLM 也无法解决的问题。例如,在 "极限数独 "和 "高难度迷宫 "测试中,顶级 CoT 模型完全失败,准确率仅为 0%。与此同时,HRM 在每个任务中只训练了 1,000 个示例,就达到了近乎完美的准确率。
在衡量抽象推理和概括能力的 ARC-AGI 基准测试中,27M 参数的 HRM 达到了 40.3%。这一成绩超越了基于 CoT 的著名模型,如规模更大的 o3-mini-high 模型(34.5%)和 Claude 3.7 Sonnet 模型(21.2%)。这一成绩是在没有大量预训练数据集和使用极少量数据的情况下取得的,凸显了其设计的优势和效率。

虽然解谜展示了该模型的能力,但它的实际影响却体现在另一类挑战上。Wang 认为,开发人员应该继续使用 LLM 来完成以语言为中心或创造性的任务,但对于 "复杂或确定性任务",HRM 风格的框架可以提供更优越的结果,并减少幻觉。他强调了 "需要复杂决策或长期规划的顺序问题",尤其是在延迟关键领域,如人工智能和机器人,或数据稀少的领域,如科学研究。
在这些情况下,HRM 不仅能找到解决方案,还能通过学习提高解决问题的能力。"在我们的大师级数独测试中...随着训练的继续,人力资源管理所需的步骤会逐渐减少--这就好比一个初学者逐渐成长为专家。
对于企业来说,这就是架构效率影响盈利能力的地方。HRM 的并行计算取代了 CoT 的按顺序、逐个令牌的生产方式,使 Wang 认为 "任务完成速度加快了 100 倍"。这就减少了推理延迟,并能在边缘设备上进行高级推理。
经济效益也相当可观。"Wang表示:"与大型、昂贵和高延迟的API驱动模型相比,像HRM这样的专业推理引擎为特定的复杂推理任务提供了更可行的选择。为了说明这种效率,他提到,训练专业数独模型大约需要两个 GPU 小时,而对于要求苛刻的 ARC-AGI 基准,则需要 50 到 200 个 GPU 小时--这在庞大的基础模型所需的资源中只占极小的份额。在数据和资金都受到限制的情况下,这为解决从物流规划到复杂系统故障排除等专业业务问题创造了机会。
展望未来,Sapient Intelligence 已经开始着手将 HRM 从利基问题解决工具转变为更广泛的通用推理组件。我们正在积极构建基于 HRM 的大脑启发模型,"Wang 说,"我们在医疗保健、气候预测和机器人领域取得了令人鼓舞的早期成果。他暗示说,这些未来的模型将与当前基于文本的系统大不相同,特别是通过整合自我修正功能。
这项研究意味着,对于一系列困惑当今人工智能领军人物的问题,未来的出路可能不是建立更大的模型,而是以最先进的推理系统--人脑--为模型,建立更智能、组织更完善的框架。





首页






