耗資 15 億美元的新型路由器模型精確度高達 93%，消除了昂貴的再訓練成本

首頁

新聞

2025-11-24

KennethCarter

# research # Google # openai # LLMs # qwen-2-5

Katanemo Labs 的研究人員推出了 Arch-Router，這是一個先進的路由模型和框架，其設計目的是將用戶的查詢智能地導向到最合適的大型語言模型 (LLM)。

對於開發使用多種 LLM 的產品的公司來說，Arch-Rolver 能夠解決一個核心難題：如何自動將每個請求路由到最適合該任務的模型，而無需依賴不夠靈活的邏輯，或在需要更新時進行昂貴的重新訓練。

LLM 路由的挑戰

隨著可用 LLM 種類的增加，開發人員正從單模型配置轉向多模型架構，利用不同模型的獨特功能來執行專門的功能，例如產生程式碼、總結文字或編輯圖片。

LLM 路由已經成為建構和執行此類系統的重要技術，它就像一個智慧型流量導向器，將每個使用者的查詢引導到最適合處理的模型。

目前的路由方法一般可分為兩大類：基於任務的路由（根據預先定義的任務類別分配查詢）和基於效能的路由（尋求開支和輸出品質之間的最佳折衷）。

然而，當使用者的意圖含糊不清或在對話過程中發生變化時，基於任務的系統往往會失敗，尤其是在多輪對話中。與此同時，以效能為基礎的路由往往會優先處理靜態的基準結果，經常忽略實際使用者的偏好，而且在沒有昂貴的重新訓練的情況下，對新模型的適應速度很慢。

Katanemo 實驗室的研究人員在他們的論文中指出，更深層的問題是「現有的路由方法在實際應用上有其限制。大多數都是針對基準效能進行最佳化，卻忽略了人類的偏好，而人類的偏好是由主觀的評估標準所引導的"。

該團隊強調路由系統的重要性，「它能反映人類的主觀判斷，提供更大的透明度，並隨著模型和應用程式的演進而容易調整」。

偏好對齊路由的新框架

為了克服這些問題，研究人員開發了一個「偏好對齊的路由」框架，可根據自訂的使用者偏好，將傳入的查詢與路由規則相匹配。

在這個系統中，使用者透過兩層「領域-行動分類結構」，使用自然語言定義他們的路由政策。這個結構反映了人們如何自然地描述任務：從廣泛的類別--「領域」開始，例如「法律」或「財務」--再深入到特定的任務--「行動」，例如「總結」或「編碼」。

然後，每項政策都會映射到偏好的模型，讓開發人員能夠根據實際需求來選擇路由，而不只是基準指標。根據該論文，「此分類法可作為心智模型，協助使用者建立定義明確且結構化的路由政策」。

路由程序分兩個階段運作。首先，偏好對齊的路由器模型會根據所有可用的政策來評估使用者的查詢，並挑出最適合的政策。其次，映射功能會將選取的政策連接到其指定的 LLM。

由於選擇模型的邏輯與政策定義是分開的，因此開發人員只需編輯路由規則即可新增、移除或更新模型，而無需重新訓練或變更路由器。這種分離使生產環境具有必要的彈性，因為模型和應用程式會不斷改變。

偏好對齊的路由框架資料來源：arXiv

策略選擇由 Arch-Router 執行，Arch-Router 是一個精簡的 15 億參數語言模型，專為偏好感知路由進行最佳化。Arch-Router 將使用者查詢和完整的政策描述清單作為輸入，然後輸出最適合的政策識別碼。

由於政策包含在輸入中，因此系統可以在推論過程中，透過情境中學習（in-context learning）來適應新的或更新的路由，而不需要重新訓練。這種產生式策略讓 Arch-Router 能夠利用其預先訓練的理解能力來詮釋查詢和政策的意義，並一次過分析完整的對話歷史。

在提示中包含冗長的政策清單時，一個常見的憂慮是會有較高延遲的風險。然而，該團隊建立 Arch-Router 的目的就是要達到高效率。"本文作者之一、Katanemo Labs 創辦人/執行長 Salman Paracha 表示：「即使有大量的路由政策，我們也可以擴大 Arch-Router 的上下文視窗，而對延遲影響極小。他指出，延遲主要取決於輸出長度，而 Arch-Router 只會輸出簡短的政策名稱，例如「image_editing」或「document_creation」。

行動中的 Arch-Router

為了建立 Arch-Router，研究團隊使用精心組合的 43,000 個範例資料集，微調了 Qwen 2.5 模型的 1.5B 參數變體。之後，他們在四個用於測試會話式 AI 系統的公開資料集中，將 Arch-Router 與 OpenAI、Anthropic 和 Google 的領先專有模型進行比較。

研究結果顯示，Arch-Router 的整體路由得分最高，達到 93.17%，比其他所有模型 (包括頂尖的專屬模型) 平均高出 7.71%。該模型的優勢在較長的對話中更加明顯，展示了其在多次交換中保持上下文的卓越能力。

Arch-Router 與其他模型的比較資料來源：arXiv

Paracha 指出，在現實世界中，這種方法已經應用在多種環境中。例如，在開放原始碼編碼平台中，開發人員依靠 Arch-Router 來引導工作流程中的不同部分，例如「程式碼設計」、「程式碼理解」和「程式碼產生」，並將每個步驟引導至最有效的 LLM。同樣地，組織可以將文件建立任務路由至 Claude 3.7 Sonnet 等模型，同時將影像編輯請求傳送至 Gemini 2.5 Pro。

該系統也非常適合「跨領域的個人助理，使用者會執行從總結文字到回答事實查詢等一系列活動」，Paracha 解釋說，「在這種情況下，Arch-Router 可協助產品團隊鞏固並改善使用者的整體體驗」。

此架構內建於Katanemo Labs針對代理的AI原生代理伺服器Arch中，支援執行細粒度的流量管理規則。例如，在新增 LLM 時，團隊可以將特定政策下的一小部分流量路由至新模型，使用內部分析驗證其效能，然後有信心地將所有流量轉移過來。該公司也在努力將其工具與評估平台整合，讓企業開發人員的工作流程更加順暢。

其核心目標是協助企業超越互不相關的 AI 實作。「Arch-Router以及Arch平台整體可讓開發人員和企業從零散的LLM使用演進到統一的、政策管理的系統，」Paracha表示。「當使用者執行各式各樣的任務時，我們的平台將這種任務和模型的多樣性轉換為一種具凝聚力的體驗，讓最終的產品感覺無縫而直觀。」

Google I/O 2026 發表了與 Gmail 收件匣的語音互動功能 Google 持續將人工智慧整合至您的收件匣中。在週二舉行的 IO 2026 開發者大會上，該公司透過對話式人工智慧擴充了 Gmail 的「AI 收件匣」功能，讓使用者能針對收件匣內容提出問題，而非僅依賴搜尋關鍵字。據 Google 表示，這項由 Gemini AI 驅動的工具名為「Gmail Live」，能協助使用者快速找出埋藏在收件匣中的資訊。圖片來源：Google舉例來說，您可能需要查詢即將

薩提亞·納德拉準備利用與OpenAI的新合作關係週三，一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉，修訂後的OpenAI合作關係將如何影響公司的財務狀況。納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係，並確保它能夠實現雙贏。只有這樣，雙方才能保持良好的合作伙伴關係。” 他強調，微軟仍然可以使用OpenAI的智慧財產權，包括其模型和智慧體產品，但不再需要為此向OpenAI支付費用。談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術，納德拉表示：“

OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖當各國政府正竭力應對超智能機器帶來的經濟衝擊之際，OpenAI 發布了一系列政策提案，闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單，這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司，如何看待人工智慧在重塑勞動與經濟的過程

相關專題推薦

漫畫創作

漫畫頂尖 AI 自動上色工具：零一致性錯誤地套用平面色彩

立即前往 XIX.AI，探索 2026 年最優秀的漫畫 AI 自動上色工具。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的解決方案，這些工具能以零一致性錯誤的方式套用平面色彩，大幅提升您的工作效率。透過免費與付費版本的比較、實際測試結果，以及每週更新的排行榜，找到最適合您的工具。立即解鎖您的 AI 優勢。

10 個工具

xix.ai

寫作

頂尖 AI 角色設定生成工具：創造一致的角色動機與致命弱點

探索 2026 年最優秀的 AI 角色設定生成工具，打造立體鮮明的角色。XIX.AI 精心整理的清單收錄了備受好評、能徹底改變遊戲規則的工具，這些工具能生成一貫的動機與致命缺陷。透過實際測試，比較免費與付費選項的差異。立即釋放您的說故事潛能。

10 個工具

xix.ai

商業

頂尖 AI 定價優化軟體：追蹤競爭對手並自動調整商店價格

立即在 XIX.AI 探索 2026 年最佳 AI 定價優化軟體。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具，這些工具不僅能追蹤競爭對手，還能自動調整您的商店價格，以實現利潤最大化。透過實際測試，比較免費與付費方案的差異。立即掌握您的定價優勢。

10 個工具

xix.ai

代碼

最佳 AI 程式碼審查工具：自動化確保程式碼整潔度，並重構舊版儲存庫檔案

立即在 XIX.AI 探索 2026 年最佳 AI 程式碼審查工具。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具，可自動確保程式碼符合規範，並重構舊版儲存庫檔案。透過實際測試與每週更新的排行榜，比較免費與付費選項。立即掌握您的 AI 競爭優勢。

10 個工具

xix.ai

文字轉語音

專為閱讀障礙設計的頂尖 AI 語音合成應用程式：協助學生提升學習與閱讀效率

探索 2026 年最新精選、專為閱讀障礙者設計的頂級 AI 語音合成（TTS）應用程式。我們的專家評比將免費與付費工具進行對照，重點介紹能提升閱讀效率與學習成效的強大功能。發掘這些必試且能帶來革命性改變的解決方案，釋放學生的潛能。立即前往 XIX.AI 展開您的探索之旅。

10 個工具

xix.ai

漫畫創作

少年漫畫頂尖 AI 生成器：打造高張力動作場面與能量特效

立即前往 XIX.AI，探索 2026 年最優秀的少年漫畫 AI 生成工具。我們精心挑選的頂級清單，匯集了能打造高張力動作場面與動態能量特效的強大工具。透過實際測試，比較免費與付費選項的差異。釋放您的創作潛能，今天就開始打造史詩級漫畫吧！

15 個工具

xix.ai

評論 (1)

0/500

請登錄後再操作

WillGarcía

2026-04-06 10:00:35

Arch-Routerの構想は面白いね。社内でどのLLMを使うか毎回悩んでたから、これがあれば効率化に繋がりそう。ただ、精度93%って、結局残りの7%で重大なミスルーティングが起きたりしない？医療や法務のようなクリティカルな分野への適用は少し不安かな。😅 開発元のKatanemo Labs、これでインフラ市場に本格参戦するつもり？

頭號新聞

AI Builder和Power Automate革新文件摘要 AI寄主Notebooklm播客現已上中國發布國家級人形機器人與具身智能標準 Ramp 數據顯示，企業對 AI 的採納已進入停滯期 Bing圖像創作者教程：AI藝術生成指南學習使用您的聲音創建AI音樂：逐步Suno教程 iMyFone MagicMic：實時AI變聲器評測與教程 2025頂級AI影片生成器：Pika Labs與其他對比 DeepSeek V4 崛起為多模態人工智慧的變革者 Embodied Intelligence 公布首項業界標準，以遏止無序擴張

精選