选项
首页
新闻
Sakana AI 的 TreeQuest 通过多模型协作提升人工智能性能

Sakana AI 的 TreeQuest 通过多模型协作提升人工智能性能

2025-08-24
5

日本人工智能实验室 Sakana AI 公布了一项技术,它能让多个大型语言模型(LLM)协同工作,组成一个高效的人工智能团队。这种方法被命名为Multi-LLM AB-MCTS,它允许模型进行试错,利用它们的独特优势来处理任何单一模型都无法完成的复杂任务。

对于企业来说,这种方法提供了建立更强大人工智能系统的途径。企业可以动态地利用各种前沿模型的优势,为每个任务分段分配最佳的人工智能,以实现最佳结果,而不是依赖于一个供应商或模型。

利用集体智慧

前沿人工智能模型发展迅速,根据其训练数据和设计,每个模型都有明显的优势和劣势。一个模型可能在编码方面大放异彩,而另一个模型则在创意写作方面大放异彩。Sakana AI 团队将这些差异视为资产,而非缺陷。

"研究人员在博客中指出:"我们认为,这些独特的能力是构建集体智能的宝贵工具。他们认为,就像人类团队通过多样性实现突破一样,人工智能系统也可以通过合作取得更大的成就。"通过结合各自的优势,人工智能系统可以解决单个模型无法克服的挑战"。

提高推理性能

Sakana AI 的算法是一种 "推理时扩展 "技术(也称为 "测试时扩展"),在人工智能研究领域正日益受到重视。与 "训练时扩展 "不同,"推理时扩展 "侧重于更大的模型和数据集,它通过优化训练后的计算资源来提高性能。

一种方法是利用强化学习鼓励模型生成详细的思维链(CoT)序列,如 OpenAI o3 和 DeepSeek-R1 等模型。另一种方法是重复采样,促使模型多次产生不同的解决方案,类似于头脑风暴。Sakana AI 的方法完善了这些概念。

"Sakana AI 研究科学家兼论文合著者秋叶拓也在接受 VentureBeat 采访时说:"我们的框架改进了最佳-N 取样。"它通过强化学习增强了扩展 CoT 等推理技术。通过战略性地选择搜索方法和正确的 LLM,它能在有限的调用范围内优化性能,在复杂任务中表现出色。"

自适应分支搜索如何发挥作用

该技术的核心是自适应分支蒙特卡洛树搜索(AB-MCTS)算法。它通过平衡 "深入搜索"(完善有希望的解决方案)和 "广泛搜索"(生成新的解决方案),使 LLM 能够执行智能试错。AB-MCTS 融合了这些策略,允许系统在需要时完善想法或转向新想法。

这得益于蒙特卡洛树搜索(MCTS),这是一种用于 DeepMind 的 AlphaGo 的决策算法。AB-MCTS 采用概率模型来决定每一步是改进还是重新开始。

不同的测试时间扩展策略 来源:Sakana AISakana AI

多 LLM AB-MCTS 不仅能决定 "做什么"(改进或生成),还能决定 "使用哪种 "LLM。起初,系统并不知道某项任务的最佳模型是什么,但它会测试各种 LLM,随着时间的推移,系统会了解哪些 LLM 性能更好,并为它们分配更多的工作。

测试人工智能团队

多 LLM AB-MCTS 系统在 ARC-AGI-2 基准上进行了评估,该基准测试在新问题上类似人类的视觉推理能力,这对人工智能来说是一项严峻的挑战。

团队结合了 o4-mini、Gemini 2.5 Pro 和 DeepSeek-R1 等前沿模型。

模型集体解决了 120 个测试问题中的 30% 以上,远远超过了任何单一模型的性能。系统会为每个任务动态分配最佳模型,在存在清晰的解决路径时快速识别最有效的 LLM。

AB-MCTS 与单个模型的对比(来源:Sakana AI)
AB-MCTS 与单个模型对比 来源:Sakana AI来源:Sakana AI

值得注意的是,该系统解决了以往任何单一模型都无法解决的问题。在一个例子中,DeepSeek-R1 和 Gemini-2.5 Pro 对 o4-mini 的错误解决方案进行了改进,纠正了错误并给出了正确答案。

"研究人员指出:"这表明,Multi-LLM AB-MCTS 可以结合前沿模型来解决以前无法解决的难题,从而拓展了集体人工智能的极限。

AB-MTCS 可在解决问题的不同阶段选择不同的模型(来源:Sakana AI)
AB-MTCS 可以在解决问题的不同阶段选择不同的模型 来源:Sakana AI来源:Sakana AI

"每个模型的优势和幻觉倾向各不相同,"Akiba 指出。"通过搭配幻觉风险较低的模型,我们可以同时实现强大的推理能力和可靠性,从而解决关键的业务问题。

从研究到实际应用

Sakana AI 发布了 TreeQuest,这是一个采用 Apache 2.0 许可的开源框架,使开发人员和企业能够实施 Multi-LLM AB-MCTS。其灵活的应用程序接口(API)支持针对不同任务的自定义评分和逻辑。

"Akiba说:"我们仍在针对具体的业务挑战探索AB-MCTS,但它的潜力是显而易见的。

除ARC-AGI-2基准测试外,AB-MCTS在复杂编码和提高机器学习模型准确性等任务中也取得了成功。

"AB-MCTS擅长迭代试错任务,例如优化软件性能指标,"Akiba补充道。"例如,它可以自动减少网络服务响应延迟。

这种开源工具可以支持新一代稳健可靠的企业人工智能应用。

相关文章
麻省理工学院推出超越静态模型的自学习人工智能框架 麻省理工学院推出超越静态模型的自学习人工智能框架 麻省理工学院研究人员首创自学习人工智能框架麻省理工学院的一个团队开发出了一种名为 SEAL(自适应语言模型)的创新系统,它能让大型语言模型自主进化其能力。这一突破使人工智能系统能够生成自己的培训材料和学习协议,从而永久性地整合新知识和新技能。SEAL 代表着企业人工智能应用的重大进步,特别是对于在流动环境中运行的智能代理来说,持续适应至关重要。该框架解决了当前 LLM 技术的一个根本性局限--除了
Multiverse AI 推出突破性微型高性能模型 Multiverse AI 推出突破性微型高性能模型 欧洲一家开创性的人工智能初创公司推出了突破性的微型人工智能模型,这些模型以鸟类和昆虫的大脑命名,表明强大的人工智能并不需要大规模。Multiverse Computing 公司的创新核心是专为边缘计算应用设计的超紧凑但功能强大的模型。这些微型神经网络被命名为 "ChickBrain"(32 亿个参数)和 "SuperFly"(9400 万个参数),代表了高效人工智能部署的重大飞跃。"创始人罗曼-奥
微软研究发现更多人工智能代币会增加推理错误 微软研究发现更多人工智能代币会增加推理错误 关于 LLM 推理效率的新见解微软的最新研究表明,大型语言模型中的高级推理技术并不能在不同的人工智能系统中产生统一的改进。他们的突破性研究分析了九个领先的基础模型在推理过程中对各种扩展方法的反应。评估推理时间扩展方法研究团队对三种不同的缩放技术实施了严格的测试方法:传统的思维链提示并行答案生成与汇总通过反馈环路进行顺序改进评估推理性能的实验框架八项综合基准提供了跨学科的挑战性测试场景,包括数学、科
评论 (0)
0/200
返回顶部
OR