价值 15 亿美元的新型路由器模型准确率高达 93%,消除了昂贵的再培训成本
Katanemo实验室的研究人员发布了Arch-Router,这是一种先进的路由模型和框架,可智能地将用户查询导向最合适的大型语言模型(LLM)。
对于开发利用多个 LLM 的产品的公司来说,Arch-Rolver 解决了一个核心难题:如何自动将每个请求路由到任务所需的理想模型,而不依赖于不灵活的逻辑或在需要更新时昂贵的重新训练。
LLM 路由的挑战
随着可用 LLM 种类的增多,开发人员正在从单一模型配置转向多模型架构,利用不同模型的独特能力来实现专门功能,例如生成代码、汇总文本或编辑图像。
LLM 路由已成为构建和运行此类系统的基本技术,它就像一个智能流量导向器,引导每个用户查询到最适合处理它的模型。
目前的路由方法一般分为两大类:基于任务的路由和基于性能的路由,前者根据预定义的任务类别分配查询,后者则寻求费用和输出质量之间的最佳权衡。
然而,当用户意图不明确或在对话过程中发生变化时,基于任务的系统往往会出现问题,尤其是在多轮对话中。与此同时,基于性能的路由选择往往优先考虑静态的基准结果,经常忽略用户的实际偏好,并且在不进行昂贵的再训练的情况下,对新模型的适应很慢。
Katanemo 实验室的研究人员在论文中指出,更深层次的问题在于 "现有的路由选择方法在实际应用中存在局限性。大多数方法都针对基准性能进行了优化,但忽略了人的偏好,而人的偏好是以主观评价标准为指导的"。
该团队强调,路由系统必须 "反映人类的主观判断,提供更大的透明度,并随着模型和应用的发展而易于调整"。
偏好对齐路由的新框架
为了克服这些问题,研究人员开发了一个 "偏好对齐路由 "框架,根据用户的自定义偏好将传入的查询与路由规则相匹配。
在这个系统中,用户通过一个两层的 "领域-行动分类标准",使用自然语言定义他们的路由策略。这种结构反映了人们如何自然地描述任务:从一个广泛的类别--领域(如 "法律 "或 "金融")--深入到具体的任务--操作(如 "总结 "或 "编码")。
然后将每项政策映射到一个首选模型,使开发人员能够根据实际需求而不仅仅是基准指标来选择路由。论文称,"这种分类法可作为一种心理模型,帮助用户创建定义明确、结构合理的路由策略"。
路由程序分两个阶段运行。首先,一个偏好对齐的路由器模型会根据所有可用策略评估用户的查询,并挑选出最合适的策略。其次,映射功能将所选策略与其分配的 LLM 连接起来。
由于选择模型的逻辑与策略定义相分离,开发人员只需编辑路由规则就能添加、删除或更新模型,而无需重新训练或更改路由器。这种分离为模型和应用不断变化的生产环境提供了必要的灵活性。

偏好对齐的路由框架 来源:ArXiv 策略选择由 Arch-Router 提供支持,Arch-Router 是一个紧凑的 15 亿参数语言模型,针对偏好感知路由进行了优化。Arch-Router 将用户查询和完整的策略描述列表作为输入,然后输出最合适策略的标识符。
由于策略包含在输入中,因此系统可以在推理过程中通过上下文学习来适应新的或更新的路由,而无需重新训练。这种生成策略使 Arch-Router 能够利用其预先训练的理解能力来解释查询和策略的含义,并一次性分析完整的对话历史。
在提示中包含冗长策略列表的一个常见问题是延迟风险较高。然而,该团队在构建 Arch-Router 时就考虑到了这一点。"论文作者之一、Katanemo Labs 创始人/首席执行官 Salman Paracha 说:"即使路由策略繁多,我们也可以扩展 Arch-Router 的上下文窗口,而对延迟影响很小。他指出,延迟主要取决于输出长度,而 Arch-Router 只输出简短的策略名称,如 "图像编辑 "或 "文档创建"。
运行中的 Arch-Router
为了创建 Arch-Router,团队使用精心收集的 43,000 个示例数据集对 Qwen 2.5 模型的 1.5B 参数变体进行了微调。然后,他们将其与 OpenAI、Anthropic 和谷歌的领先专有模型在四个公共数据集上进行了基准测试,这些数据集旨在测试对话式人工智能系统。
研究结果表明,Arch-Router 的整体路由得分最高,达到 93.17%,比所有其他模型(包括顶级专有模型)平均高出 7.71%。在较长时间的对话中,该模型的优势更加明显,展示了其在多次交流中保持上下文的卓越能力。

Arch-Router 与其他模型的对比 来源:ArXiv Paracha 指出,在现实世界中,这种方法已被应用于多种场合。例如,在开源编码平台中,开发人员依靠 Arch-Router 将其工作流程的不同部分(如 "代码设计"、"代码理解 "和 "代码生成")引导到对每个步骤最有效的 LLM。同样,企业可以将文档创建任务分配给 Claude 3.7 Sonnet 等模型,同时将图像编辑请求发送给 Gemini 2.5 Pro。
该系统还非常适合 "各领域的个人助理,用户在个人助理中执行从总结文本到回答事实性查询等一系列活动",帕拉查解释说,"在这种情况下,Arch-Router 可以帮助产品团队巩固和改善用户的整体体验。"
这一框架内置于卡塔尼莫实验室(Katanemo Labs)为代理提供的人工智能原生代理服务器 Arch 中,它支持实施细粒度的流量管理规则。例如,在添加新的 LLM 时,团队可以根据特定策略将一小部分流量路由到新模型,利用内部分析验证其性能,然后放心地将所有流量转移到新模型上。公司还在努力将其工具与评估平台集成,使企业开发人员的工作流程更加顺畅。
其核心目标是帮助企业超越互不关联的人工智能实施。"Arch-Router以及整个Arch平台使开发人员和企业能够从零散的LLM使用发展到统一的策略管理系统,"Paracha说。"当用户执行各种任务时,我们的平台会将任务和模型的多样性转换为一种连贯的体验,使最终产品给人一种无缝和直观的感觉。"
相关文章
Google I/O 2026 发布 Gmail 收件箱语音交互功能
谷歌正持续将人工智能融入用户的收件箱。在周二举行的IO 2026开发者大会上,该公司通过对话式人工智能扩展了Gmail的“AI收件箱”功能,让用户能够针对收件箱内容提出问题,而不再仅依赖搜索关键词。据谷歌介绍,这款由Gemini AI驱动的工具名为Gmail Live,可帮助用户快速定位收件箱中被埋没的信息。图片来源:谷歌例如,您可能需要查询即将出发的航班详情、牙医预约时间、爱彼迎(Airbnb)
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
相关专题推荐
评论 (1)
0/500
Katanemo实验室的研究人员发布了Arch-Router,这是一种先进的路由模型和框架,可智能地将用户查询导向最合适的大型语言模型(LLM)。
对于开发利用多个 LLM 的产品的公司来说,Arch-Rolver 解决了一个核心难题:如何自动将每个请求路由到任务所需的理想模型,而不依赖于不灵活的逻辑或在需要更新时昂贵的重新训练。
LLM 路由的挑战
随着可用 LLM 种类的增多,开发人员正在从单一模型配置转向多模型架构,利用不同模型的独特能力来实现专门功能,例如生成代码、汇总文本或编辑图像。
LLM 路由已成为构建和运行此类系统的基本技术,它就像一个智能流量导向器,引导每个用户查询到最适合处理它的模型。
目前的路由方法一般分为两大类:基于任务的路由和基于性能的路由,前者根据预定义的任务类别分配查询,后者则寻求费用和输出质量之间的最佳权衡。
然而,当用户意图不明确或在对话过程中发生变化时,基于任务的系统往往会出现问题,尤其是在多轮对话中。与此同时,基于性能的路由选择往往优先考虑静态的基准结果,经常忽略用户的实际偏好,并且在不进行昂贵的再训练的情况下,对新模型的适应很慢。
Katanemo 实验室的研究人员在论文中指出,更深层次的问题在于 "现有的路由选择方法在实际应用中存在局限性。大多数方法都针对基准性能进行了优化,但忽略了人的偏好,而人的偏好是以主观评价标准为指导的"。
该团队强调,路由系统必须 "反映人类的主观判断,提供更大的透明度,并随着模型和应用的发展而易于调整"。
偏好对齐路由的新框架
为了克服这些问题,研究人员开发了一个 "偏好对齐路由 "框架,根据用户的自定义偏好将传入的查询与路由规则相匹配。
在这个系统中,用户通过一个两层的 "领域-行动分类标准",使用自然语言定义他们的路由策略。这种结构反映了人们如何自然地描述任务:从一个广泛的类别--领域(如 "法律 "或 "金融")--深入到具体的任务--操作(如 "总结 "或 "编码")。
然后将每项政策映射到一个首选模型,使开发人员能够根据实际需求而不仅仅是基准指标来选择路由。论文称,"这种分类法可作为一种心理模型,帮助用户创建定义明确、结构合理的路由策略"。
路由程序分两个阶段运行。首先,一个偏好对齐的路由器模型会根据所有可用策略评估用户的查询,并挑选出最合适的策略。其次,映射功能将所选策略与其分配的 LLM 连接起来。
由于选择模型的逻辑与策略定义相分离,开发人员只需编辑路由规则就能添加、删除或更新模型,而无需重新训练或更改路由器。这种分离为模型和应用不断变化的生产环境提供了必要的灵活性。

策略选择由 Arch-Router 提供支持,Arch-Router 是一个紧凑的 15 亿参数语言模型,针对偏好感知路由进行了优化。Arch-Router 将用户查询和完整的策略描述列表作为输入,然后输出最合适策略的标识符。
由于策略包含在输入中,因此系统可以在推理过程中通过上下文学习来适应新的或更新的路由,而无需重新训练。这种生成策略使 Arch-Router 能够利用其预先训练的理解能力来解释查询和策略的含义,并一次性分析完整的对话历史。
在提示中包含冗长策略列表的一个常见问题是延迟风险较高。然而,该团队在构建 Arch-Router 时就考虑到了这一点。"论文作者之一、Katanemo Labs 创始人/首席执行官 Salman Paracha 说:"即使路由策略繁多,我们也可以扩展 Arch-Router 的上下文窗口,而对延迟影响很小。他指出,延迟主要取决于输出长度,而 Arch-Router 只输出简短的策略名称,如 "图像编辑 "或 "文档创建"。
运行中的 Arch-Router
为了创建 Arch-Router,团队使用精心收集的 43,000 个示例数据集对 Qwen 2.5 模型的 1.5B 参数变体进行了微调。然后,他们将其与 OpenAI、Anthropic 和谷歌的领先专有模型在四个公共数据集上进行了基准测试,这些数据集旨在测试对话式人工智能系统。
研究结果表明,Arch-Router 的整体路由得分最高,达到 93.17%,比所有其他模型(包括顶级专有模型)平均高出 7.71%。在较长时间的对话中,该模型的优势更加明显,展示了其在多次交流中保持上下文的卓越能力。

Paracha 指出,在现实世界中,这种方法已被应用于多种场合。例如,在开源编码平台中,开发人员依靠 Arch-Router 将其工作流程的不同部分(如 "代码设计"、"代码理解 "和 "代码生成")引导到对每个步骤最有效的 LLM。同样,企业可以将文档创建任务分配给 Claude 3.7 Sonnet 等模型,同时将图像编辑请求发送给 Gemini 2.5 Pro。
该系统还非常适合 "各领域的个人助理,用户在个人助理中执行从总结文本到回答事实性查询等一系列活动",帕拉查解释说,"在这种情况下,Arch-Router 可以帮助产品团队巩固和改善用户的整体体验。"
这一框架内置于卡塔尼莫实验室(Katanemo Labs)为代理提供的人工智能原生代理服务器 Arch 中,它支持实施细粒度的流量管理规则。例如,在添加新的 LLM 时,团队可以根据特定策略将一小部分流量路由到新模型,利用内部分析验证其性能,然后放心地将所有流量转移到新模型上。公司还在努力将其工具与评估平台集成,使企业开发人员的工作流程更加顺畅。
其核心目标是帮助企业超越互不关联的人工智能实施。"Arch-Router以及整个Arch平台使开发人员和企业能够从零散的LLM使用发展到统一的策略管理系统,"Paracha说。"当用户执行各种任务时,我们的平台会将任务和模型的多样性转换为一种连贯的体验,使最终产品给人一种无缝和直观的感觉。"
Google I/O 2026 发布 Gmail 收件箱语音交互功能
谷歌正持续将人工智能融入用户的收件箱。在周二举行的IO 2026开发者大会上,该公司通过对话式人工智能扩展了Gmail的“AI收件箱”功能,让用户能够针对收件箱内容提出问题,而不再仅依赖搜索关键词。据谷歌介绍,这款由Gemini AI驱动的工具名为Gmail Live,可帮助用户快速定位收件箱中被埋没的信息。图片来源:谷歌例如,您可能需要查询即将出发的航班详情、牙医预约时间、爱彼迎(Airbnb)
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的





首页






