选项
首页
新闻
Sakana AI 的 TreeQuest 通过多模型协作提升人工智能性能

Sakana AI 的 TreeQuest 通过多模型协作提升人工智能性能

2025-08-24
68

日本人工智能实验室 Sakana AI 公布了一项技术,它能让多个大型语言模型(LLM)协同工作,组成一个高效的人工智能团队。这种方法被命名为Multi-LLM AB-MCTS,它允许模型进行试错,利用它们的独特优势来处理任何单一模型都无法完成的复杂任务。

对于企业来说,这种方法提供了建立更强大人工智能系统的途径。企业可以动态地利用各种前沿模型的优势,为每个任务分段分配最佳的人工智能,以实现最佳结果,而不是依赖于一个供应商或模型。

利用集体智慧

前沿人工智能模型发展迅速,根据其训练数据和设计,每个模型都有明显的优势和劣势。一个模型可能在编码方面大放异彩,而另一个模型则在创意写作方面大放异彩。Sakana AI 团队将这些差异视为资产,而非缺陷。

"研究人员在博客中指出:"我们认为,这些独特的能力是构建集体智能的宝贵工具。他们认为,就像人类团队通过多样性实现突破一样,人工智能系统也可以通过合作取得更大的成就。"通过结合各自的优势,人工智能系统可以解决单个模型无法克服的挑战"。

提高推理性能

Sakana AI 的算法是一种 "推理时扩展 "技术(也称为 "测试时扩展"),在人工智能研究领域正日益受到重视。与 "训练时扩展 "不同,"推理时扩展 "侧重于更大的模型和数据集,它通过优化训练后的计算资源来提高性能。

一种方法是利用强化学习鼓励模型生成详细的思维链(CoT)序列,如 OpenAI o3 和 DeepSeek-R1 等模型。另一种方法是重复采样,促使模型多次产生不同的解决方案,类似于头脑风暴。Sakana AI 的方法完善了这些概念。

"Sakana AI 研究科学家兼论文合著者秋叶拓也在接受 VentureBeat 采访时说:"我们的框架改进了最佳-N 取样。"它通过强化学习增强了扩展 CoT 等推理技术。通过战略性地选择搜索方法和正确的 LLM,它能在有限的调用范围内优化性能,在复杂任务中表现出色。"

自适应分支搜索如何发挥作用

该技术的核心是自适应分支蒙特卡洛树搜索(AB-MCTS)算法。它通过平衡 "深入搜索"(完善有希望的解决方案)和 "广泛搜索"(生成新的解决方案),使 LLM 能够执行智能试错。AB-MCTS 融合了这些策略,允许系统在需要时完善想法或转向新想法。

这得益于蒙特卡洛树搜索(MCTS),这是一种用于 DeepMind 的 AlphaGo 的决策算法。AB-MCTS 采用概率模型来决定每一步是改进还是重新开始。

不同的测试时间扩展策略 来源:Sakana AISakana AI

多 LLM AB-MCTS 不仅能决定 "做什么"(改进或生成),还能决定 "使用哪种 "LLM。起初,系统并不知道某项任务的最佳模型是什么,但它会测试各种 LLM,随着时间的推移,系统会了解哪些 LLM 性能更好,并为它们分配更多的工作。

测试人工智能团队

多 LLM AB-MCTS 系统在 ARC-AGI-2 基准上进行了评估,该基准测试在新问题上类似人类的视觉推理能力,这对人工智能来说是一项严峻的挑战。

团队结合了 o4-mini、Gemini 2.5 Pro 和 DeepSeek-R1 等前沿模型。

模型集体解决了 120 个测试问题中的 30% 以上,远远超过了任何单一模型的性能。系统会为每个任务动态分配最佳模型,在存在清晰的解决路径时快速识别最有效的 LLM。

AB-MCTS 与单个模型的对比(来源:Sakana AI)
AB-MCTS 与单个模型对比 来源:Sakana AI来源:Sakana AI

值得注意的是,该系统解决了以往任何单一模型都无法解决的问题。在一个例子中,DeepSeek-R1 和 Gemini-2.5 Pro 对 o4-mini 的错误解决方案进行了改进,纠正了错误并给出了正确答案。

"研究人员指出:"这表明,Multi-LLM AB-MCTS 可以结合前沿模型来解决以前无法解决的难题,从而拓展了集体人工智能的极限。

AB-MTCS 可在解决问题的不同阶段选择不同的模型(来源:Sakana AI)
AB-MTCS 可以在解决问题的不同阶段选择不同的模型 来源:Sakana AI来源:Sakana AI

"每个模型的优势和幻觉倾向各不相同,"Akiba 指出。"通过搭配幻觉风险较低的模型,我们可以同时实现强大的推理能力和可靠性,从而解决关键的业务问题。

从研究到实际应用

Sakana AI 发布了 TreeQuest,这是一个采用 Apache 2.0 许可的开源框架,使开发人员和企业能够实施 Multi-LLM AB-MCTS。其灵活的应用程序接口(API)支持针对不同任务的自定义评分和逻辑。

"Akiba说:"我们仍在针对具体的业务挑战探索AB-MCTS,但它的潜力是显而易见的。

除ARC-AGI-2基准测试外,AB-MCTS在复杂编码和提高机器学习模型准确性等任务中也取得了成功。

"AB-MCTS擅长迭代试错任务,例如优化软件性能指标,"Akiba补充道。"例如,它可以自动减少网络服务响应延迟。

这种开源工具可以支持新一代稳健可靠的企业人工智能应用。

相关文章
Multiverse Computing推出免费压缩生成式AI模型 Multiverse Computing推出免费压缩生成式AI模型 大型语言模型面临着一个重大挑战:其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题,旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起,开发者可在Hugging Face平台免费获取Multiverse增强版H
秘密追踪数据揭露人工智能模型被盗事件 秘密追踪数据揭露人工智能模型被盗事件 一种新方法能在数秒内对ChatGPT等模型进行隐形水印处理,无需重新训练,既不会在标准输出中留下痕迹,又能抵御所有实际的去除尝试。 水印技术与"版权诱饵"的关键区别在于:无论可见或隐形的水印,通常都设计为贯穿整个集合(如图像数据集)的持续性威慑手段,以防范随意复制。而虚构条目则是将一小段文本(通常为单词或定义)植入大型通用集合中,旨在证明盗用行为。其原理在于:当作品被直接盗用或作为衍生作品基础时,
人工智能系统被诱骗批准荒谬的科学论文 人工智能系统被诱骗批准荒谬的科学论文 最新研究表明,人工智能系统现已能够生成虚假科学论文,且其他AI模型会将其误认为真实研究。这些伪造的研究绕过了以往有效的检测方法,凸显出科研生态系统可能陷入机器人欺骗机器人的循环漩涡,面临崩溃风险。 具有讽刺意味的是,作为人工智能创新前沿的学术研究领域,正面临着主要由人工智能引发的可信度危机。自四年前机器学习的潜在影响显现以来,其已深刻重塑了研究、投稿和同行评审流程。最新争议涉及低质量调查论文的批量
相关专题推荐
商业 最佳 AI 合同审查软件:即时发现法律漏洞与合规风险
最佳 AI 合同审查软件:即时发现法律漏洞与合规风险

在 XIX.AI 上探索 2026 年最佳 AI 合同审查软件。我们精心筛选的顶级榜单汇集了功能强大的工具,能够即时发现法律漏洞和合规风险。通过实际测试和每周更新的排名,对比免费与付费选项。找到能彻底改变游戏规则的解决方案,实现安全、高效的合同分析。立即探索这本权威指南。

10 个工具
xix.ai
动画创作 专为东华设计的AI动漫生成器:可用于创建网络小说角色及漫画头像
专为东华设计的AI动漫生成器:可用于创建网络小说角色及漫画头像

探索2026年最适合制作中文动画的人工智能工具。我们精心挑选的顶级列表中包含了各种强大的工具,能够帮助你创建出令人惊叹的网络小说角色和漫画头像。通过实际测试来对比免费选项和付费选项,找到最适合你的创作工具,今天就在XIX.AI上将你的故事变为现实吧。

10 个工具
xix.ai
漫画创作 漫画领域顶尖的AI自动上色工具:零一致性错误地应用平涂色彩
漫画领域顶尖的AI自动上色工具:零一致性错误地应用平涂色彩

立即访问 XIX.AI,探索 2026 年最优秀的漫画 AI 自动上色工具。我们精心筛选的清单汇集了广受好评、颠覆行业的解决方案,这些工具能以零一致性错误的方式应用平涂色彩,从而大幅提升您的工作效率。通过免费版与付费版的对比分析、实际测试以及每周更新的排行榜,找到最适合您的工具。立即开启您的 AI 优势。

10 个工具
xix.ai
写作 顶尖 AI 角色设定生成器:生成一致的角色动机与致命缺陷
顶尖 AI 角色设定生成器:生成一致的角色动机与致命缺陷

探索2026年最优秀的AI人物设定生成工具,助您塑造鲜活立体的角色。XIX.AI精心筛选的这份清单汇集了广受好评、颠覆传统的工具,能够生成具有内在逻辑的动机和致命缺陷。通过实际测试对比免费与付费选项。立即释放您的叙事潜能。

10 个工具
xix.ai
商业 顶级 AI 定价优化软件:追踪竞争对手并自动调整店铺价格
顶级 AI 定价优化软件:追踪竞争对手并自动调整店铺价格

在 XIX.AI 上探索 2026 年最佳 AI 定价优化软件。我们精心挑选的清单汇集了备受好评、具有颠覆性意义的工具,这些工具不仅能追踪竞争对手,还能自动调整您的店铺价格,从而实现利润最大化。通过实际测试对比免费与付费选项。立即掌握您的定价优势。

10 个工具
xix.ai
代码 最佳 AI 代码审查工具:自动确保代码符合规范,并重构遗留代码库文件
最佳 AI 代码审查工具:自动确保代码符合规范,并重构遗留代码库文件

在 XIX.AI 上探索 2026 年最佳 AI 代码审查工具。我们的精选列表汇集了备受好评、具有颠覆性的工具,可自动确保代码规范并重构遗留代码库文件。通过实际测试和每周更新的排行榜,对比免费与付费选项。立即开启您的 AI 优势。

10 个工具
xix.ai
评论 (1)
0/500
JoseJackson
JoseJackson 2026-02-12 16:00:30

Вот это да! Модели ИИ, которые сотрудничают, как настоящая команда? Это напоминает мне о том, как разные эксперты работают вместе над сложным проектом. Интересно, сможет ли этот подход решить проблему узкой специализации ИИ, когда одна модель хороша в одном, но бесполезна в другом. Надеюсь, это не приведёт к тому, что ИИ начнут 'ссориться' между собой из-за разных точек зрения! 🤔

OR