選項
首頁
新聞
Sakana AI 的 TreeQuest 透過多模型協作提升 AI 效能

Sakana AI 的 TreeQuest 透過多模型協作提升 AI 效能

2025-08-24
68

日本 AI 實驗室 Sakana AI 發表了一項技術,可讓多個大型語言模型 (LLM) 合作,組成一個高效率的 AI 團隊。此方法命名為 Multi-LLM AB-MCTS,可讓模型進行試誤,利用其獨特優勢來處理任何單一模型無法處理的複雜任務。

對於企業而言,這種方法提供了建立更強大人工智慧系統的方法。企業可以動態地利用各種前沿模型的優勢,為每個任務區段分配最佳的人工智能,以達到最佳結果,而不是依賴於一個提供商或模型。

利用集體智慧

前沿人工智能模型發展迅速,根據其訓練資料和設計,每個模型都有明顯的優點和缺點。一個模型可能在編碼方面大放異彩,另一個則在創意寫作方面大放異彩。Sakana AI 團隊將這些差異視為資產,而非缺點。

"研究人員在部落格中指出:「我們認為這些獨特的能力是建立集體智慧的寶貴工具。他們認為,就像人類團隊透過多樣性實現突破一樣,AI 系統也能透過合作完成更多工作。「透過結合他們的優勢,AI 系統可以解決單一模型無法克服的挑戰」。

增強推理性能

Sakana AI 的演算法是一種「推理時擴展」技術(也稱為「測試時擴展」),在 AI 研究領域正逐漸受到重視。與專注於更大模型和資料集的「訓練時擴展」不同,「推理時擴展」是透過優化訓練後的計算資源來提升效能。

其中一種方法是使用強化學習來鼓勵模型產生詳細的思考連鎖 (CoT) 序列,如 OpenAI o3 和 DeepSeek-R1 等模型。另一種方法是重複取樣,促使模型多次產生不同的解決方案,類似於腦力激盪。Sakana AI 的方法完善了這些概念。

"Sakana AI 研究員兼論文合著者 Takuya Akiba 在接受 VentureBeat 訪問時表示:「我們的框架改進了 Best-of-N 取樣。"它透過強化學習增強了推理技術,例如擴展的 CoT。通過策略性地選擇搜索方法和合適的 LLM,它能在有限的調用範圍內優化性能,在複雜的任務中脫穎而出。"

Adaptive Branching Search 如何發揮功能

這項技術的核心是適應性分支蒙特卡洛樹搜尋 (AB-MCTS) 演算法。它使 LLM 能夠在 「深入搜尋」(完善有潛力的解決方案)和 「廣泛搜尋」(產生新解決方案)之間取得平衡,從而執行智慧型試誤。AB-MCTS 結合了這些策略,讓系統可以在需要時精煉想法或轉向新的想法。

這由 DeepMind 的 AlphaGo 所使用的決策演算法 Monte Carlo Tree Search (MCTS) 所提供。AB-MCTS 採用概率模型來決定每一步是精煉還是重新開始。

不同的測試時間縮放策略 資料來源:Sakana AISakana AI

多 LLM AB-MCTS 更進一步,不僅決定「做什麼」(精進或產生),還決定「使用哪個」LLM。一開始,系統不知道某項任務的最佳模型,因此會混合測試各種 LLM,隨著時間的推移,了解哪些 LLM 表現較佳,並為其分配更多工作。

測試 AI 團隊

多 LLM AB-MCTS 系統在 ARC-AGI-2 基準上進行評估,該基準測試在新問題上類似於人類的視覺推理能力,對於 AI 來說是一項艱鉅的挑戰。

團隊結合了 o4-mini、Gemini 2.5 Pro 和 DeepSeek-R1 等前沿模型。

模型集體解決了 120 個測試問題中超過 30% 的問題,遠遠超過任何單一模型的表現。系統動態地為每個任務指派最佳模型,在存在明確的解決路徑時,快速找出最有效的 LLM。

AB-MCTS vs 個別模型 (來源:Sakana AI)
AB-MCTS vs 個別模型 資料來源:Sakana AISakana AI

值得注意的是,系統解決了之前任何單一模型都無法解決的問題。在一個例子中,來自 o4-mini 的錯誤解決方案經 DeepSeek-R1 與 Gemini-2.5 Pro 改良後,糾正了錯誤並送出了正確的答案。

"研究人員表示:「這顯示 Multi-LLM AB-MCTS 可以結合前沿模型來解決之前無法解決的挑戰,擴大集體 AI 智慧的極限。

AB-MTCS 可以在解決問題的不同階段選擇不同的模型 (來源:Sakana AI)
AB-MTCS 可以在解決問題的不同階段選擇不同的模型 資料來源:Sakana AISakana AI

「每個模型的優勢和幻覺傾向各不相同,」Akiba 指出。「通過搭配幻覺風險較低的模型,我們可以同時實現強大的推理能力和可靠性,解決企業關心的關鍵問題」。

從研究到實際應用

Sakana AI 發布了 Apache 2.0 授權下的開放源碼框架 TreeQuest,讓開發人員和企業能夠實現 Multi-LLM AB-MCTS。其彈性的 API 可支援各種不同任務的客製化評分與邏輯。

"Akiba 表示:「我們仍在探索 AB-MCTS 以應對特定的商業挑戰,但其潛力顯而易見。

除了 ARC-AGI-2 基準之外,AB-MCTS 在複雜編碼和提高機器學習模型準確性等任務上也取得了成功。

「AB-MCTS在迭代試誤任務(如優化軟體性能指標)方面表現優異,」Akiba補充道。「例如,它可以自動降低網路服務的回應延遲」。

這款開放原始碼工具可實現新一代強大、可靠的企業級 AI 應用程式。

相關文章
Multiverse Computing 推出免費壓縮生成式人工智慧模型 Multiverse Computing 推出免費壓縮生成式人工智慧模型 大型語言模型面臨著重大挑戰:其龐大的體積。西班牙新創公司Multiverse Computing正透過開發壓縮模型來解決此問題,旨在彌合尖端AI能力與企業實際可負擔部署方案之間的差距。其核心創新在於「CompactifAI」壓縮技術——這項受量子運算原理啟發的技術,已被這家巴斯克公司用於優化OpenAI的模型。即日起,開發者可在Hugging Face平台免費使用Multiverse增強版的Hyp
秘密追蹤數據揭露人工智慧模型遭竊事件 秘密追蹤數據揭露人工智慧模型遭竊事件 一種新方法能在數秒內對ChatGPT等模型進行隱形水印處理,無需重新訓練,既不會在標準輸出中留下痕跡,又能抵禦所有實際的移除嘗試。 水印技術與「版權誘餌」的核心差異在於:無論可見或隱藏的水印,通常設計為貫穿整個資料集(如圖像資料集)的恆定存在,藉此對隨意複製行為形成持續威懾。相對地,虛構條目是將一小段文字(通常為單詞或定義)植入龐大通用資料庫,旨在證明盜用行為。其原理在於:當整部作品遭未經授權複製
人工智慧系統被騙批准荒謬科學論文 人工智慧系統被騙批准荒謬科學論文 最新研究揭示,人工智慧系統現已能生成虛假科學論文,且其他AI模型會誤判其為真實研究。這些偽造研究能成功繞過過往有效的檢測方法,凸顯研究生態系統面臨崩潰風險——可能陷入機器人欺騙機器人的循環漩渦。 諷刺的是,正處於AI創新前沿的學術研究領域,如今卻正面臨主要由AI引發的可信度危機。自約四年前機器學習的潛在影響顯現以來,其已深刻重塑了研究、投稿與同行評審流程。最新爭議涉及低品質問卷調查論文的批量生產。
相關專題推薦
寫作 最佳免費且無法被偵測的 AI 寫手:將機械化的草稿轉化為自然、類人化的散文
最佳免費且無法被偵測的 AI 寫手:將機械化的草稿轉化為自然、類人化的散文

立即前往 XIX.AI,探索 2026 年最頂尖的免費且難以被察覺的 AI 寫手。我們精心篩選的頂級清單,能協助您將生硬的草稿轉化為自然流暢、宛如人類撰寫的文字。透過實際測試與每週更新的排行榜,比較免費與付費選項的優劣。立即解鎖您的 AI 寫作優勢。

10 個工具
xix.ai
圖像編輯 用於短劇故事板的AI藝術生成工具:幻想與都市浪漫題材的角色設計
用於短劇故事板的AI藝術生成工具:幻想與都市浪漫題材的角色設計

2026最新推薦:探索最適合用於短劇故事板製作的AI藝術生成工具。我們精心挑選了眾多頂級工具,幫助您創作出引人入勝的幻想角色和都市浪漫角色。您可以對比免費與付費選項,檢視實際測試結果,從而找到最適合自己的創意工具。XIX.AI還會每週更新排名並提供專家分析,讓您立即開始將故事視覺化呈現吧!

10 個工具
xix.ai
寫作 最適合廣播和播客使用的AI指令碼編寫工具:幫助您創作引人入勝的音訊廣告
最適合廣播和播客使用的AI指令碼編寫工具:幫助您創作引人入勝的音訊廣告

在XIX.AI上,發現2026年最適合用於廣播和播客製作的AI指令碼工具。我們精心挑選的這些高評分工具能夠提供強大的功能,幫助您快速製作出引人入勝的音訊廣告。透過實際測試和每週更新的排名,您可以瞭解免費選項與付費選項之間的差異。今天就釋放您的創造力吧!

10 個工具
xix.ai
商業 最佳 AI 合約審查軟體:即時發現法律漏洞與合規風險
最佳 AI 合約審查軟體:即時發現法律漏洞與合規風險

立即在 XIX.AI 探索 2026 年最佳 AI 合約審查軟體。我們精心挑選的頂級清單收錄了多款強大工具,能即時偵測法律漏洞與合規風險。透過實際測試與每週更新的排行榜,比較免費與付費方案的差異。為您找到能徹底改變遊戲規則的解決方案,實現安全且高效的合約分析。立即探索這份權威指南。

10 個工具
xix.ai
動畫創作 專為東華設計的AI動漫生成器:可用於建立網路小說角色及漫畫頭像
專為東華設計的AI動漫生成器:可用於建立網路小說角色及漫畫頭像

探索2026年最適合製作中文動畫的人工智慧工具。我們精心挑選的頂級列表中包含了各種強大的工具,能夠幫助你建立出令人驚歎的網路小說角色和漫畫頭像。透過實際測試來對比免費選項和付費選項,找到最適合你的創作工具,今天就在XIX.AI上將你的故事變為現實吧。

10 個工具
xix.ai
漫畫創作 漫畫頂尖 AI 自動上色工具:零一致性錯誤地套用平面色彩
漫畫頂尖 AI 自動上色工具:零一致性錯誤地套用平面色彩

立即前往 XIX.AI,探索 2026 年最優秀的漫畫 AI 自動上色工具。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的解決方案,這些工具能以零一致性錯誤的方式套用平面色彩,大幅提升您的工作效率。透過免費與付費版本的比較、實際測試結果,以及每週更新的排行榜,找到最適合您的工具。立即解鎖您的 AI 優勢。

10 個工具
xix.ai
評論 (1)
0/500
JoseJackson
JoseJackson 2026-02-12 16:00:30

Вот это да! Модели ИИ, которые сотрудничают, как настоящая команда? Это напоминает мне о том, как разные эксперты работают вместе над сложным проектом. Интересно, сможет ли этот подход решить проблему узкой специализации ИИ, когда одна модель хороша в одном, но бесполезна в другом. Надеюсь, это не приведёт к тому, что ИИ начнут 'ссориться' между собой из-за разных точек зрения! 🤔

OR