选项
首页
新闻
Sakana AI 的 TreeQuest 通过多模型协作提升人工智能性能

Sakana AI 的 TreeQuest 通过多模型协作提升人工智能性能

2025-08-24
0

日本人工智能实验室 Sakana AI 公布了一项技术,它能让多个大型语言模型(LLM)协同工作,组成一个高效的人工智能团队。这种方法被命名为Multi-LLM AB-MCTS,它允许模型进行试错,利用它们的独特优势来处理任何单一模型都无法完成的复杂任务。

对于企业来说,这种方法提供了建立更强大人工智能系统的途径。企业可以动态地利用各种前沿模型的优势,为每个任务分段分配最佳的人工智能,以实现最佳结果,而不是依赖于一个供应商或模型。

利用集体智慧

前沿人工智能模型发展迅速,根据其训练数据和设计,每个模型都有明显的优势和劣势。一个模型可能在编码方面大放异彩,而另一个模型则在创意写作方面大放异彩。Sakana AI 团队将这些差异视为资产,而非缺陷。

"研究人员在博客中指出:"我们认为,这些独特的能力是构建集体智能的宝贵工具。他们认为,就像人类团队通过多样性实现突破一样,人工智能系统也可以通过合作取得更大的成就。"通过结合各自的优势,人工智能系统可以解决单个模型无法克服的挑战"。

提高推理性能

Sakana AI 的算法是一种 "推理时扩展 "技术(也称为 "测试时扩展"),在人工智能研究领域正日益受到重视。与 "训练时扩展 "不同,"推理时扩展 "侧重于更大的模型和数据集,它通过优化训练后的计算资源来提高性能。

一种方法是利用强化学习鼓励模型生成详细的思维链(CoT)序列,如 OpenAI o3 和 DeepSeek-R1 等模型。另一种方法是重复采样,促使模型多次产生不同的解决方案,类似于头脑风暴。Sakana AI 的方法完善了这些概念。

"Sakana AI 研究科学家兼论文合著者秋叶拓也在接受 VentureBeat 采访时说:"我们的框架改进了最佳-N 取样。"它通过强化学习增强了扩展 CoT 等推理技术。通过战略性地选择搜索方法和正确的 LLM,它能在有限的调用范围内优化性能,在复杂任务中表现出色。"

自适应分支搜索如何发挥作用

该技术的核心是自适应分支蒙特卡洛树搜索(AB-MCTS)算法。它通过平衡 "深入搜索"(完善有希望的解决方案)和 "广泛搜索"(生成新的解决方案),使 LLM 能够执行智能试错。AB-MCTS 融合了这些策略,允许系统在需要时完善想法或转向新想法。

这得益于蒙特卡洛树搜索(MCTS),这是一种用于 DeepMind 的 AlphaGo 的决策算法。AB-MCTS 采用概率模型来决定每一步是改进还是重新开始。

不同的测试时间扩展策略 来源:Sakana AISakana AI

多 LLM AB-MCTS 不仅能决定 "做什么"(改进或生成),还能决定 "使用哪种 "LLM。起初,系统并不知道某项任务的最佳模型是什么,但它会测试各种 LLM,随着时间的推移,系统会了解哪些 LLM 性能更好,并为它们分配更多的工作。

测试人工智能团队

多 LLM AB-MCTS 系统在 ARC-AGI-2 基准上进行了评估,该基准测试在新问题上类似人类的视觉推理能力,这对人工智能来说是一项严峻的挑战。

团队结合了 o4-mini、Gemini 2.5 Pro 和 DeepSeek-R1 等前沿模型。

模型集体解决了 120 个测试问题中的 30% 以上,远远超过了任何单一模型的性能。系统会为每个任务动态分配最佳模型,在存在清晰的解决路径时快速识别最有效的 LLM。

AB-MCTS 与单个模型的对比(来源:Sakana AI)
AB-MCTS 与单个模型对比 来源:Sakana AI来源:Sakana AI

值得注意的是,该系统解决了以往任何单一模型都无法解决的问题。在一个例子中,DeepSeek-R1 和 Gemini-2.5 Pro 对 o4-mini 的错误解决方案进行了改进,纠正了错误并给出了正确答案。

"研究人员指出:"这表明,Multi-LLM AB-MCTS 可以结合前沿模型来解决以前无法解决的难题,从而拓展了集体人工智能的极限。

AB-MTCS 可在解决问题的不同阶段选择不同的模型(来源:Sakana AI)
AB-MTCS 可以在解决问题的不同阶段选择不同的模型 来源:Sakana AI来源:Sakana AI

"每个模型的优势和幻觉倾向各不相同,"Akiba 指出。"通过搭配幻觉风险较低的模型,我们可以同时实现强大的推理能力和可靠性,从而解决关键的业务问题。

从研究到实际应用

Sakana AI 发布了 TreeQuest,这是一个采用 Apache 2.0 许可的开源框架,使开发人员和企业能够实施 Multi-LLM AB-MCTS。其灵活的应用程序接口(API)支持针对不同任务的自定义评分和逻辑。

"Akiba说:"我们仍在针对具体的业务挑战探索AB-MCTS,但它的潜力是显而易见的。

除ARC-AGI-2基准测试外,AB-MCTS在复杂编码和提高机器学习模型准确性等任务中也取得了成功。

"AB-MCTS擅长迭代试错任务,例如优化软件性能指标,"Akiba补充道。"例如,它可以自动减少网络服务响应延迟。

这种开源工具可以支持新一代稳健可靠的企业人工智能应用。

相关文章
字节跳动发布Seed-Thinking-v1.5 AI模型以增强推理能力 字节跳动发布Seed-Thinking-v1.5 AI模型以增强推理能力 高级推理AI的竞赛始于2024年9月OpenAI的o1模型,随着2025年1月DeepSeek的R1发布而加速。主要AI开发者现正竞相打造更快、更具成本效益的推理AI模型,通过链式思考过程提供精确、深思熟虑的回答,确保回答前的准确性。字节跳动,TikTok的母公司,推出了Seed-Thinking-v1.5,这是一个在技术论文中概述的新大型语言模型(LLM),旨在提升STEM和通用领域的推理能力。
Qodo与Google Cloud合作,为开发者提供免费AI代码审查工具 Qodo与Google Cloud合作,为开发者提供免费AI代码审查工具 Qodo,一家专注于代码质量的以色列AI编码初创公司,已与Google Cloud建立合作关系,以增强AI生成软件的完整性。随着企业越来越依赖AI进行编码,对强大的监督和质量保证工具的需求不断增长。Qodo的首席执行官伊塔马尔·弗里德曼指出,AI生成的代码现已成为现代开发的核心。“想象一个未来,AI编写所有代码;人类无法全部审查,”弗里德曼说。“我们需要系统来确保代码符合预期价值观。”Qodo的创
AI同理心训练降低准确性,增加风险 AI同理心训练降低准确性,增加风险 像ChatGPT这样设计为具有同理心和友好的聊天机器人,更容易为了取悦用户而提供错误答案,尤其当用户显得情绪低落时。研究显示,此类AI在用户显得脆弱时,提供虚假信息的可能性高出30%,可能支持阴谋论或确认错误信念。 将科技产品从利基市场转向主流市场一直是盈利策略。过去25年,计算和互联网访问从依赖技术支持的复杂桌面系统,转变为优先考虑易用性的简化移动平台,牺牲了部分自定义功能。用户控制与
评论 (0)
0/200
返回顶部
OR