价值 15 亿美元的新型路由器模型准确率高达 93%，消除了昂贵的再培训成本

首页

新闻

2025-11-24

KennethCarter

# research # Google # openai # LLMs # qwen-2-5

Katanemo实验室的研究人员发布了Arch-Router，这是一种先进的路由模型和框架，可智能地将用户查询导向最合适的大型语言模型（LLM）。

对于开发利用多个 LLM 的产品的公司来说，Arch-Rolver 解决了一个核心难题：如何自动将每个请求路由到任务所需的理想模型，而不依赖于不灵活的逻辑或在需要更新时昂贵的重新训练。

LLM 路由的挑战

随着可用 LLM 种类的增多，开发人员正在从单一模型配置转向多模型架构，利用不同模型的独特能力来实现专门功能，例如生成代码、汇总文本或编辑图像。

LLM 路由已成为构建和运行此类系统的基本技术，它就像一个智能流量导向器，引导每个用户查询到最适合处理它的模型。

目前的路由方法一般分为两大类：基于任务的路由和基于性能的路由，前者根据预定义的任务类别分配查询，后者则寻求费用和输出质量之间的最佳权衡。

然而，当用户意图不明确或在对话过程中发生变化时，基于任务的系统往往会出现问题，尤其是在多轮对话中。与此同时，基于性能的路由选择往往优先考虑静态的基准结果，经常忽略用户的实际偏好，并且在不进行昂贵的再训练的情况下，对新模型的适应很慢。

Katanemo 实验室的研究人员在论文中指出，更深层次的问题在于 "现有的路由选择方法在实际应用中存在局限性。大多数方法都针对基准性能进行了优化，但忽略了人的偏好，而人的偏好是以主观评价标准为指导的"。

该团队强调，路由系统必须 "反映人类的主观判断，提供更大的透明度，并随着模型和应用的发展而易于调整"。

偏好对齐路由的新框架

为了克服这些问题，研究人员开发了一个 "偏好对齐路由 "框架，根据用户的自定义偏好将传入的查询与路由规则相匹配。

在这个系统中，用户通过一个两层的 "领域-行动分类标准"，使用自然语言定义他们的路由策略。这种结构反映了人们如何自然地描述任务：从一个广泛的类别--领域（如 "法律 "或 "金融"）--深入到具体的任务--操作（如 "总结 "或 "编码"）。

然后将每项政策映射到一个首选模型，使开发人员能够根据实际需求而不仅仅是基准指标来选择路由。论文称，"这种分类法可作为一种心理模型，帮助用户创建定义明确、结构合理的路由策略"。

路由程序分两个阶段运行。首先，一个偏好对齐的路由器模型会根据所有可用策略评估用户的查询，并挑选出最合适的策略。其次，映射功能将所选策略与其分配的 LLM 连接起来。

由于选择模型的逻辑与策略定义相分离，开发人员只需编辑路由规则就能添加、删除或更新模型，而无需重新训练或更改路由器。这种分离为模型和应用不断变化的生产环境提供了必要的灵活性。

偏好对齐的路由框架来源：ArXiv

策略选择由 Arch-Router 提供支持，Arch-Router 是一个紧凑的 15 亿参数语言模型，针对偏好感知路由进行了优化。Arch-Router 将用户查询和完整的策略描述列表作为输入，然后输出最合适策略的标识符。

由于策略包含在输入中，因此系统可以在推理过程中通过上下文学习来适应新的或更新的路由，而无需重新训练。这种生成策略使 Arch-Router 能够利用其预先训练的理解能力来解释查询和策略的含义，并一次性分析完整的对话历史。

在提示中包含冗长策略列表的一个常见问题是延迟风险较高。然而，该团队在构建 Arch-Router 时就考虑到了这一点。"论文作者之一、Katanemo Labs 创始人/首席执行官 Salman Paracha 说："即使路由策略繁多，我们也可以扩展 Arch-Router 的上下文窗口，而对延迟影响很小。他指出，延迟主要取决于输出长度，而 Arch-Router 只输出简短的策略名称，如 "图像编辑 "或 "文档创建"。

运行中的 Arch-Router

为了创建 Arch-Router，团队使用精心收集的 43,000 个示例数据集对 Qwen 2.5 模型的 1.5B 参数变体进行了微调。然后，他们将其与 OpenAI、Anthropic 和谷歌的领先专有模型在四个公共数据集上进行了基准测试，这些数据集旨在测试对话式人工智能系统。

研究结果表明，Arch-Router 的整体路由得分最高，达到 93.17%，比所有其他模型（包括顶级专有模型）平均高出 7.71%。在较长时间的对话中，该模型的优势更加明显，展示了其在多次交流中保持上下文的卓越能力。

Arch-Router 与其他模型的对比来源：ArXiv

Paracha 指出，在现实世界中，这种方法已被应用于多种场合。例如，在开源编码平台中，开发人员依靠 Arch-Router 将其工作流程的不同部分（如 "代码设计"、"代码理解 "和 "代码生成"）引导到对每个步骤最有效的 LLM。同样，企业可以将文档创建任务分配给 Claude 3.7 Sonnet 等模型，同时将图像编辑请求发送给 Gemini 2.5 Pro。

该系统还非常适合 "各领域的个人助理，用户在个人助理中执行从总结文本到回答事实性查询等一系列活动"，帕拉查解释说，"在这种情况下，Arch-Router 可以帮助产品团队巩固和改善用户的整体体验。"

这一框架内置于卡塔尼莫实验室（Katanemo Labs）为代理提供的人工智能原生代理服务器 Arch 中，它支持实施细粒度的流量管理规则。例如，在添加新的 LLM 时，团队可以根据特定策略将一小部分流量路由到新模型，利用内部分析验证其性能，然后放心地将所有流量转移到新模型上。公司还在努力将其工具与评估平台集成，使企业开发人员的工作流程更加顺畅。

其核心目标是帮助企业超越互不关联的人工智能实施。"Arch-Router以及整个Arch平台使开发人员和企业能够从零散的LLM使用发展到统一的策略管理系统，"Paracha说。"当用户执行各种任务时，我们的平台会将任务和模型的多样性转换为一种连贯的体验，使最终产品给人一种无缝和直观的感觉。"

Google I/O 2026 发布 Gmail 收件箱语音交互功能谷歌正持续将人工智能融入用户的收件箱。在周二举行的IO 2026开发者大会上，该公司通过对话式人工智能扩展了Gmail的“AI收件箱”功能，让用户能够针对收件箱内容提出问题，而不再仅依赖搜索关键词。据谷歌介绍，这款由Gemini AI驱动的工具名为Gmail Live，可帮助用户快速定位收件箱中被埋没的信息。图片来源：谷歌例如，您可能需要查询即将出发的航班详情、牙医预约时间、爱彼迎（Airbnb）

萨提亚·纳德拉准备利用与OpenAI的新合作关系周三，一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉，修订后的OpenAI合作关系将如何影响公司的财务状况。纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系，并确保它能够实现双赢。只有这样，双方才能保持良好的合作伙伴关系。” 他强调，微软仍然可以使用OpenAI的知识产权，包括其模型和智能体产品，但不再需要为此向OpenAI支付费用。谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术，纳德拉表示：“

OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图正当各国政府竭力应对超级智能机器带来的经济影响之际，OpenAI发布了一套政策建议，概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单，这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的

相关专题推荐

代码

最佳 AI 代码审查工具：自动确保代码符合规范，并重构遗留代码库文件

在 XIX.AI 上探索 2026 年最佳 AI 代码审查工具。我们的精选列表汇集了备受好评、具有颠覆性的工具，可自动确保代码规范并重构遗留代码库文件。通过实际测试和每周更新的排行榜，对比免费与付费选项。立即开启您的 AI 优势。

10 个工具

xix.ai

文字转语音

专为阅读障碍设计的顶级AI语音合成应用：助力学生提升学习与阅读效率

探索2026年最新精选的高评分AI语音合成（TTS）应用，专为阅读障碍者提供支持。我们的专家评级对比了免费与付费工具，重点介绍了能够提升阅读效率和学习效果的强大功能。探索这些必试的、具有革命性意义的解决方案，释放学生的潜能。立即访问XIX.AI，开启您的探索之旅。

10 个工具

xix.ai

漫画创作

少年漫画顶级AI生成器：打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具，助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能，立即开始创作史诗级漫画吧！

15 个工具

xix.ai

商业

最佳 AI 费用追踪工具：扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具：广受好评的解决方案，可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案，助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南，助您找到最适合的工具。通过XIX.AI的专家精选，释放您的AI优势。

10 个工具

xix.ai

商业

最佳人工智能招聘工具：筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案，可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名，对比免费与付费选项。立即找到最适合您的招聘助手，优化您的招聘流程！

10 个工具

xix.ai

生产率

AI个人健康与专注力教练：缓解倦怠，提升精神能量

立即访问 XIX.AI，探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具，助您缓解倦怠、提升精神能量。通过真实案例分析，对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具

xix.ai

0/500

请登录后再操作

WillGarcía

2026-04-06 10:00:35

Arch-Routerの構想は面白いね。社内でどのLLMを使うか毎回悩んでたから、これがあれば効率化に繋がりそう。ただ、精度93%って、結局残りの7%で重大なミスルーティングが起きたりしない？医療や法務のようなクリティカルな分野への適用は少し不安かな。😅 開発元のKatanemo Labs、これでインフラ市場に本格参戦するつもり？

头条新闻

AI Builder和Power Automate革新文档摘要 AI寄主Notebooklm播客现已上中国发布人形机器人及具身智能国家标准 Ramp 数据显示企业人工智能应用趋于平稳 Bing图像创建者教程：AI艺术生成指南学习使用您的声音创建AI音乐：逐步Suno教程 iMyFone MagicMic：实时AI变声器评测与教程 2025顶级AI视频生成器：Pika Labs与其他对比 DeepSeek V4 作为多模态人工智能变革者横空出世 Embodied Intelligence 发布首个行业标准，旨在遏制无序增长

精选