Sakana AI 的 TreeQuest 通过多模型协作提升人工智能性能
日本人工智能实验室 Sakana AI 公布了一项技术,它能让多个大型语言模型(LLM)协同工作,组成一个高效的人工智能团队。这种方法被命名为Multi-LLM AB-MCTS,它允许模型进行试错,利用它们的独特优势来处理任何单一模型都无法完成的复杂任务。
对于企业来说,这种方法提供了建立更强大人工智能系统的途径。企业可以动态地利用各种前沿模型的优势,为每个任务分段分配最佳的人工智能,以实现最佳结果,而不是依赖于一个供应商或模型。
利用集体智慧
前沿人工智能模型发展迅速,根据其训练数据和设计,每个模型都有明显的优势和劣势。一个模型可能在编码方面大放异彩,而另一个模型则在创意写作方面大放异彩。Sakana AI 团队将这些差异视为资产,而非缺陷。
"研究人员在博客中指出:"我们认为,这些独特的能力是构建集体智能的宝贵工具。他们认为,就像人类团队通过多样性实现突破一样,人工智能系统也可以通过合作取得更大的成就。"通过结合各自的优势,人工智能系统可以解决单个模型无法克服的挑战"。
提高推理性能
Sakana AI 的算法是一种 "推理时扩展 "技术(也称为 "测试时扩展"),在人工智能研究领域正日益受到重视。与 "训练时扩展 "不同,"推理时扩展 "侧重于更大的模型和数据集,它通过优化训练后的计算资源来提高性能。
一种方法是利用强化学习鼓励模型生成详细的思维链(CoT)序列,如 OpenAI o3 和 DeepSeek-R1 等模型。另一种方法是重复采样,促使模型多次产生不同的解决方案,类似于头脑风暴。Sakana AI 的方法完善了这些概念。
"Sakana AI 研究科学家兼论文合著者秋叶拓也在接受 VentureBeat 采访时说:"我们的框架改进了最佳-N 取样。"它通过强化学习增强了扩展 CoT 等推理技术。通过战略性地选择搜索方法和正确的 LLM,它能在有限的调用范围内优化性能,在复杂任务中表现出色。"
自适应分支搜索如何发挥作用
该技术的核心是自适应分支蒙特卡洛树搜索(AB-MCTS)算法。它通过平衡 "深入搜索"(完善有希望的解决方案)和 "广泛搜索"(生成新的解决方案),使 LLM 能够执行智能试错。AB-MCTS 融合了这些策略,允许系统在需要时完善想法或转向新想法。
这得益于蒙特卡洛树搜索(MCTS),这是一种用于 DeepMind 的 AlphaGo 的决策算法。AB-MCTS 采用概率模型来决定每一步是改进还是重新开始。

不同的测试时间扩展策略 来源:Sakana AISakana AI 多 LLM AB-MCTS 不仅能决定 "做什么"(改进或生成),还能决定 "使用哪种 "LLM。起初,系统并不知道某项任务的最佳模型是什么,但它会测试各种 LLM,随着时间的推移,系统会了解哪些 LLM 性能更好,并为它们分配更多的工作。
测试人工智能团队
多 LLM AB-MCTS 系统在 ARC-AGI-2 基准上进行了评估,该基准测试在新问题上类似人类的视觉推理能力,这对人工智能来说是一项严峻的挑战。
团队结合了 o4-mini、Gemini 2.5 Pro 和 DeepSeek-R1 等前沿模型。
模型集体解决了 120 个测试问题中的 30% 以上,远远超过了任何单一模型的性能。系统会为每个任务动态分配最佳模型,在存在清晰的解决路径时快速识别最有效的 LLM。

AB-MCTS 与单个模型对比 来源:Sakana AI来源:Sakana AI 值得注意的是,该系统解决了以往任何单一模型都无法解决的问题。在一个例子中,DeepSeek-R1 和 Gemini-2.5 Pro 对 o4-mini 的错误解决方案进行了改进,纠正了错误并给出了正确答案。
"研究人员指出:"这表明,Multi-LLM AB-MCTS 可以结合前沿模型来解决以前无法解决的难题,从而拓展了集体人工智能的极限。

AB-MTCS 可以在解决问题的不同阶段选择不同的模型 来源:Sakana AI来源:Sakana AI "每个模型的优势和幻觉倾向各不相同,"Akiba 指出。"通过搭配幻觉风险较低的模型,我们可以同时实现强大的推理能力和可靠性,从而解决关键的业务问题。
从研究到实际应用
Sakana AI 发布了 TreeQuest,这是一个采用 Apache 2.0 许可的开源框架,使开发人员和企业能够实施 Multi-LLM AB-MCTS。其灵活的应用程序接口(API)支持针对不同任务的自定义评分和逻辑。
"Akiba说:"我们仍在针对具体的业务挑战探索AB-MCTS,但它的潜力是显而易见的。
除ARC-AGI-2基准测试外,AB-MCTS在复杂编码和提高机器学习模型准确性等任务中也取得了成功。
"AB-MCTS擅长迭代试错任务,例如优化软件性能指标,"Akiba补充道。"例如,它可以自动减少网络服务响应延迟。
这种开源工具可以支持新一代稳健可靠的企业人工智能应用。
相关文章
Multiverse Computing推出免费压缩生成式AI模型
大型语言模型面临着一个重大挑战:其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题,旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起,开发者可在Hugging Face平台免费获取Multiverse增强版H
秘密追踪数据揭露人工智能模型被盗事件
一种新方法能在数秒内对ChatGPT等模型进行隐形水印处理,无需重新训练,既不会在标准输出中留下痕迹,又能抵御所有实际的去除尝试。 水印技术与"版权诱饵"的关键区别在于:无论可见或隐形的水印,通常都设计为贯穿整个集合(如图像数据集)的持续性威慑手段,以防范随意复制。而虚构条目则是将一小段文本(通常为单词或定义)植入大型通用集合中,旨在证明盗用行为。其原理在于:当作品被直接盗用或作为衍生作品基础时,
人工智能系统被诱骗批准荒谬的科学论文
最新研究表明,人工智能系统现已能够生成虚假科学论文,且其他AI模型会将其误认为真实研究。这些伪造的研究绕过了以往有效的检测方法,凸显出科研生态系统可能陷入机器人欺骗机器人的循环漩涡,面临崩溃风险。 具有讽刺意味的是,作为人工智能创新前沿的学术研究领域,正面临着主要由人工智能引发的可信度危机。自四年前机器学习的潜在影响显现以来,其已深刻重塑了研究、投稿和同行评审流程。最新争议涉及低质量调查论文的批量
相关专题推荐
评论 (1)
0/500
Вот это да! Модели ИИ, которые сотрудничают, как настоящая команда? Это напоминает мне о том, как разные эксперты работают вместе над сложным проектом. Интересно, сможет ли этот подход решить проблему узкой специализации ИИ, когда одна модель хороша в одном, но бесполезна в другом. Надеюсь, это не приведёт к тому, что ИИ начнут 'ссориться' между собой из-за разных точек зрения! 🤔
日本人工智能实验室 Sakana AI 公布了一项技术,它能让多个大型语言模型(LLM)协同工作,组成一个高效的人工智能团队。这种方法被命名为Multi-LLM AB-MCTS,它允许模型进行试错,利用它们的独特优势来处理任何单一模型都无法完成的复杂任务。
对于企业来说,这种方法提供了建立更强大人工智能系统的途径。企业可以动态地利用各种前沿模型的优势,为每个任务分段分配最佳的人工智能,以实现最佳结果,而不是依赖于一个供应商或模型。
利用集体智慧
前沿人工智能模型发展迅速,根据其训练数据和设计,每个模型都有明显的优势和劣势。一个模型可能在编码方面大放异彩,而另一个模型则在创意写作方面大放异彩。Sakana AI 团队将这些差异视为资产,而非缺陷。
"研究人员在博客中指出:"我们认为,这些独特的能力是构建集体智能的宝贵工具。他们认为,就像人类团队通过多样性实现突破一样,人工智能系统也可以通过合作取得更大的成就。"通过结合各自的优势,人工智能系统可以解决单个模型无法克服的挑战"。
提高推理性能
Sakana AI 的算法是一种 "推理时扩展 "技术(也称为 "测试时扩展"),在人工智能研究领域正日益受到重视。与 "训练时扩展 "不同,"推理时扩展 "侧重于更大的模型和数据集,它通过优化训练后的计算资源来提高性能。
一种方法是利用强化学习鼓励模型生成详细的思维链(CoT)序列,如 OpenAI o3 和 DeepSeek-R1 等模型。另一种方法是重复采样,促使模型多次产生不同的解决方案,类似于头脑风暴。Sakana AI 的方法完善了这些概念。
"Sakana AI 研究科学家兼论文合著者秋叶拓也在接受 VentureBeat 采访时说:"我们的框架改进了最佳-N 取样。"它通过强化学习增强了扩展 CoT 等推理技术。通过战略性地选择搜索方法和正确的 LLM,它能在有限的调用范围内优化性能,在复杂任务中表现出色。"
自适应分支搜索如何发挥作用
该技术的核心是自适应分支蒙特卡洛树搜索(AB-MCTS)算法。它通过平衡 "深入搜索"(完善有希望的解决方案)和 "广泛搜索"(生成新的解决方案),使 LLM 能够执行智能试错。AB-MCTS 融合了这些策略,允许系统在需要时完善想法或转向新想法。
这得益于蒙特卡洛树搜索(MCTS),这是一种用于 DeepMind 的 AlphaGo 的决策算法。AB-MCTS 采用概率模型来决定每一步是改进还是重新开始。

多 LLM AB-MCTS 不仅能决定 "做什么"(改进或生成),还能决定 "使用哪种 "LLM。起初,系统并不知道某项任务的最佳模型是什么,但它会测试各种 LLM,随着时间的推移,系统会了解哪些 LLM 性能更好,并为它们分配更多的工作。
测试人工智能团队
多 LLM AB-MCTS 系统在 ARC-AGI-2 基准上进行了评估,该基准测试在新问题上类似人类的视觉推理能力,这对人工智能来说是一项严峻的挑战。
团队结合了 o4-mini、Gemini 2.5 Pro 和 DeepSeek-R1 等前沿模型。
模型集体解决了 120 个测试问题中的 30% 以上,远远超过了任何单一模型的性能。系统会为每个任务动态分配最佳模型,在存在清晰的解决路径时快速识别最有效的 LLM。

值得注意的是,该系统解决了以往任何单一模型都无法解决的问题。在一个例子中,DeepSeek-R1 和 Gemini-2.5 Pro 对 o4-mini 的错误解决方案进行了改进,纠正了错误并给出了正确答案。
"研究人员指出:"这表明,Multi-LLM AB-MCTS 可以结合前沿模型来解决以前无法解决的难题,从而拓展了集体人工智能的极限。

"每个模型的优势和幻觉倾向各不相同,"Akiba 指出。"通过搭配幻觉风险较低的模型,我们可以同时实现强大的推理能力和可靠性,从而解决关键的业务问题。
从研究到实际应用
Sakana AI 发布了 TreeQuest,这是一个采用 Apache 2.0 许可的开源框架,使开发人员和企业能够实施 Multi-LLM AB-MCTS。其灵活的应用程序接口(API)支持针对不同任务的自定义评分和逻辑。
"Akiba说:"我们仍在针对具体的业务挑战探索AB-MCTS,但它的潜力是显而易见的。
除ARC-AGI-2基准测试外,AB-MCTS在复杂编码和提高机器学习模型准确性等任务中也取得了成功。
"AB-MCTS擅长迭代试错任务,例如优化软件性能指标,"Akiba补充道。"例如,它可以自动减少网络服务响应延迟。
这种开源工具可以支持新一代稳健可靠的企业人工智能应用。
Multiverse Computing推出免费压缩生成式AI模型
大型语言模型面临着一个重大挑战:其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题,旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起,开发者可在Hugging Face平台免费获取Multiverse增强版H
秘密追踪数据揭露人工智能模型被盗事件
一种新方法能在数秒内对ChatGPT等模型进行隐形水印处理,无需重新训练,既不会在标准输出中留下痕迹,又能抵御所有实际的去除尝试。 水印技术与"版权诱饵"的关键区别在于:无论可见或隐形的水印,通常都设计为贯穿整个集合(如图像数据集)的持续性威慑手段,以防范随意复制。而虚构条目则是将一小段文本(通常为单词或定义)植入大型通用集合中,旨在证明盗用行为。其原理在于:当作品被直接盗用或作为衍生作品基础时,
人工智能系统被诱骗批准荒谬的科学论文
最新研究表明,人工智能系统现已能够生成虚假科学论文,且其他AI模型会将其误认为真实研究。这些伪造的研究绕过了以往有效的检测方法,凸显出科研生态系统可能陷入机器人欺骗机器人的循环漩涡,面临崩溃风险。 具有讽刺意味的是,作为人工智能创新前沿的学术研究领域,正面临着主要由人工智能引发的可信度危机。自四年前机器学习的潜在影响显现以来,其已深刻重塑了研究、投稿和同行评审流程。最新争议涉及低质量调查论文的批量
Вот это да! Модели ИИ, которые сотрудничают, как настоящая команда? Это напоминает мне о том, как разные эксперты работают вместе над сложным проектом. Интересно, сможет ли этот подход решить проблему узкой специализации ИИ, когда одна модель хороша в одном, но бесполезна в другом. Надеюсь, это не приведёт к тому, что ИИ начнут 'ссориться' между собой из-за разных точек зрения! 🤔





首页






