Sakana AI 的 TreeQuest 通过多模型协作提升人工智能性能

首页

新闻

2025-08-24

StephenGonzalez

# research # LLMs

日本人工智能实验室 Sakana AI 公布了一项技术，它能让多个大型语言模型（LLM）协同工作，组成一个高效的人工智能团队。这种方法被命名为Multi-LLM AB-MCTS，它允许模型进行试错，利用它们的独特优势来处理任何单一模型都无法完成的复杂任务。

对于企业来说，这种方法提供了建立更强大人工智能系统的途径。企业可以动态地利用各种前沿模型的优势，为每个任务分段分配最佳的人工智能，以实现最佳结果，而不是依赖于一个供应商或模型。

利用集体智慧

前沿人工智能模型发展迅速，根据其训练数据和设计，每个模型都有明显的优势和劣势。一个模型可能在编码方面大放异彩，而另一个模型则在创意写作方面大放异彩。Sakana AI 团队将这些差异视为资产，而非缺陷。

"研究人员在博客中指出："我们认为，这些独特的能力是构建集体智能的宝贵工具。他们认为，就像人类团队通过多样性实现突破一样，人工智能系统也可以通过合作取得更大的成就。"通过结合各自的优势，人工智能系统可以解决单个模型无法克服的挑战"。

提高推理性能

Sakana AI 的算法是一种 "推理时扩展 "技术（也称为 "测试时扩展"），在人工智能研究领域正日益受到重视。与 "训练时扩展 "不同，"推理时扩展 "侧重于更大的模型和数据集，它通过优化训练后的计算资源来提高性能。

一种方法是利用强化学习鼓励模型生成详细的思维链（CoT）序列，如 OpenAI o3 和 DeepSeek-R1 等模型。另一种方法是重复采样，促使模型多次产生不同的解决方案，类似于头脑风暴。Sakana AI 的方法完善了这些概念。

"Sakana AI 研究科学家兼论文合著者秋叶拓也在接受 VentureBeat 采访时说："我们的框架改进了最佳-N 取样。"它通过强化学习增强了扩展 CoT 等推理技术。通过战略性地选择搜索方法和正确的 LLM，它能在有限的调用范围内优化性能，在复杂任务中表现出色。"

自适应分支搜索如何发挥作用

该技术的核心是自适应分支蒙特卡洛树搜索（AB-MCTS）算法。它通过平衡 "深入搜索"（完善有希望的解决方案）和 "广泛搜索"（生成新的解决方案），使 LLM 能够执行智能试错。AB-MCTS 融合了这些策略，允许系统在需要时完善想法或转向新想法。

这得益于蒙特卡洛树搜索（MCTS），这是一种用于 DeepMind 的 AlphaGo 的决策算法。AB-MCTS 采用概率模型来决定每一步是改进还是重新开始。

不同的测试时间扩展策略来源：Sakana AISakana AI

多 LLM AB-MCTS 不仅能决定 "做什么"（改进或生成），还能决定 "使用哪种 "LLM。起初，系统并不知道某项任务的最佳模型是什么，但它会测试各种 LLM，随着时间的推移，系统会了解哪些 LLM 性能更好，并为它们分配更多的工作。

测试人工智能团队

多 LLM AB-MCTS 系统在 ARC-AGI-2 基准上进行了评估，该基准测试在新问题上类似人类的视觉推理能力，这对人工智能来说是一项严峻的挑战。

团队结合了 o4-mini、Gemini 2.5 Pro 和 DeepSeek-R1 等前沿模型。

模型集体解决了 120 个测试问题中的 30% 以上，远远超过了任何单一模型的性能。系统会为每个任务动态分配最佳模型，在存在清晰的解决路径时快速识别最有效的 LLM。

AB-MCTS 与单个模型对比来源：Sakana AI来源：Sakana AI

值得注意的是，该系统解决了以往任何单一模型都无法解决的问题。在一个例子中，DeepSeek-R1 和 Gemini-2.5 Pro 对 o4-mini 的错误解决方案进行了改进，纠正了错误并给出了正确答案。

"研究人员指出："这表明，Multi-LLM AB-MCTS 可以结合前沿模型来解决以前无法解决的难题，从而拓展了集体人工智能的极限。

AB-MTCS 可在解决问题的不同阶段选择不同的模型（来源：Sakana AI）

AB-MTCS 可以在解决问题的不同阶段选择不同的模型来源：Sakana AI来源：Sakana AI

"每个模型的优势和幻觉倾向各不相同，"Akiba 指出。"通过搭配幻觉风险较低的模型，我们可以同时实现强大的推理能力和可靠性，从而解决关键的业务问题。

从研究到实际应用

Sakana AI 发布了 TreeQuest，这是一个采用 Apache 2.0 许可的开源框架，使开发人员和企业能够实施 Multi-LLM AB-MCTS。其灵活的应用程序接口（API）支持针对不同任务的自定义评分和逻辑。

"Akiba说："我们仍在针对具体的业务挑战探索AB-MCTS，但它的潜力是显而易见的。

除ARC-AGI-2基准测试外，AB-MCTS在复杂编码和提高机器学习模型准确性等任务中也取得了成功。

"AB-MCTS擅长迭代试错任务，例如优化软件性能指标，"Akiba补充道。"例如，它可以自动减少网络服务响应延迟。

这种开源工具可以支持新一代稳健可靠的企业人工智能应用。

Multiverse Computing推出免费压缩生成式AI模型大型语言模型面临着一个重大挑战：其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题，旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起，开发者可在Hugging Face平台免费获取Multiverse增强版H

秘密追踪数据揭露人工智能模型被盗事件一种新方法能在数秒内对ChatGPT等模型进行隐形水印处理，无需重新训练，既不会在标准输出中留下痕迹，又能抵御所有实际的去除尝试。水印技术与"版权诱饵"的关键区别在于：无论可见或隐形的水印，通常都设计为贯穿整个集合（如图像数据集）的持续性威慑手段，以防范随意复制。而虚构条目则是将一小段文本（通常为单词或定义）植入大型通用集合中，旨在证明盗用行为。其原理在于：当作品被直接盗用或作为衍生作品基础时，

人工智能系统被诱骗批准荒谬的科学论文最新研究表明，人工智能系统现已能够生成虚假科学论文，且其他AI模型会将其误认为真实研究。这些伪造的研究绕过了以往有效的检测方法，凸显出科研生态系统可能陷入机器人欺骗机器人的循环漩涡，面临崩溃风险。具有讽刺意味的是，作为人工智能创新前沿的学术研究领域，正面临着主要由人工智能引发的可信度危机。自四年前机器学习的潜在影响显现以来，其已深刻重塑了研究、投稿和同行评审流程。最新争议涉及低质量调查论文的批量

相关专题推荐

商业

最佳 AI 合同审查软件：即时发现法律漏洞与合规风险

在 XIX.AI 上探索 2026 年最佳 AI 合同审查软件。我们精心筛选的顶级榜单汇集了功能强大的工具，能够即时发现法律漏洞和合规风险。通过实际测试和每周更新的排名，对比免费与付费选项。找到能彻底改变游戏规则的解决方案，实现安全、高效的合同分析。立即探索这本权威指南。

10 个工具

xix.ai

动画创作

专为东华设计的AI动漫生成器：可用于创建网络小说角色及漫画头像

探索2026年最适合制作中文动画的人工智能工具。我们精心挑选的顶级列表中包含了各种强大的工具，能够帮助你创建出令人惊叹的网络小说角色和漫画头像。通过实际测试来对比免费选项和付费选项，找到最适合你的创作工具，今天就在XIX.AI上将你的故事变为现实吧。

10 个工具

xix.ai

漫画创作

漫画领域顶尖的AI自动上色工具：零一致性错误地应用平涂色彩

立即访问 XIX.AI，探索 2026 年最优秀的漫画 AI 自动上色工具。我们精心筛选的清单汇集了广受好评、颠覆行业的解决方案，这些工具能以零一致性错误的方式应用平涂色彩，从而大幅提升您的工作效率。通过免费版与付费版的对比分析、实际测试以及每周更新的排行榜，找到最适合您的工具。立即开启您的 AI 优势。

10 个工具

xix.ai

写作

顶尖 AI 角色设定生成器：生成一致的角色动机与致命缺陷

探索2026年最优秀的AI人物设定生成工具，助您塑造鲜活立体的角色。XIX.AI精心筛选的这份清单汇集了广受好评、颠覆传统的工具，能够生成具有内在逻辑的动机和致命缺陷。通过实际测试对比免费与付费选项。立即释放您的叙事潜能。

10 个工具

xix.ai

商业

顶级 AI 定价优化软件：追踪竞争对手并自动调整店铺价格

在 XIX.AI 上探索 2026 年最佳 AI 定价优化软件。我们精心挑选的清单汇集了备受好评、具有颠覆性意义的工具，这些工具不仅能追踪竞争对手，还能自动调整您的店铺价格，从而实现利润最大化。通过实际测试对比免费与付费选项。立即掌握您的定价优势。

10 个工具

xix.ai

代码

最佳 AI 代码审查工具：自动确保代码符合规范，并重构遗留代码库文件

在 XIX.AI 上探索 2026 年最佳 AI 代码审查工具。我们的精选列表汇集了备受好评、具有颠覆性的工具，可自动确保代码规范并重构遗留代码库文件。通过实际测试和每周更新的排行榜，对比免费与付费选项。立即开启您的 AI 优势。

10 个工具

xix.ai

0/500

请登录后再操作

JoseJackson

2026-02-12 16:00:30

Вот это да! Модели ИИ, которые сотрудничают, как настоящая команда? Это напоминает мне о том, как разные эксперты работают вместе над сложным проектом. Интересно, сможет ли этот подход решить проблему узкой специализации ИИ, когда одна модель хороша в одном, но бесполезна в другом. Надеюсь, это не приведёт к тому, что ИИ начнут 'ссориться' между собой из-за разных точек зрения! 🤔

头条新闻

AI Builder和Power Automate革新文档摘要 AI寄主Notebooklm播客现已上中国发布人形机器人及具身智能国家标准 Ramp 数据显示企业人工智能应用趋于平稳 Bing图像创建者教程：AI艺术生成指南学习使用您的声音创建AI音乐：逐步Suno教程 iMyFone MagicMic：实时AI变声器评测与教程 2025顶级AI视频生成器：Pika Labs与其他对比 DeepSeek V4 作为多模态人工智能变革者横空出世 Embodied Intelligence 发布首个行业标准，旨在遏制无序增长

精选