вариант
Дом
Новости
Новая модель маршрутизатора стоимостью 1,5 млрд долларов достигает точности 93%, исключая дорогостоящие затраты на переобучение

Новая модель маршрутизатора стоимостью 1,5 млрд долларов достигает точности 93%, исключая дорогостоящие затраты на переобучение

24 ноября 2025 г.
89

Исследователи из Katanemo Labs представили Arch-Router, продвинутую модель маршрутизации и фреймворк, разработанный для интеллектуального направления пользовательских запросов к наиболее подходящей большой языковой модели (LLM).

Для компаний, разрабатывающих продукты, использующие несколько LLM, Arch-Rolver решает главную дилемму: как автоматически направить каждый запрос к идеальной модели для данной задачи, не прибегая к негибкой логике или дорогостоящему переобучению при необходимости обновления.

Проблемы маршрутизации LLM

По мере расширения разнообразия доступных LLM разработчики переходят от конфигураций с одной моделью к многомодельным архитектурам, использующим различные возможности разных моделей для выполнения специализированных функций - например, генерации кода, обобщения текста или редактирования изображений.

LLM-маршрутизация стала важным методом построения и работы таких систем, выступая в роли интеллектуального директора трафика, который направляет каждый запрос пользователя к модели, наиболее подходящей для его обработки.

Существующие подходы к маршрутизации обычно делятся на две основные группы: маршрутизация на основе задач, которая распределяет запросы в соответствии с заранее определенными категориями задач, и маршрутизация на основе производительности, которая ищет наилучший компромисс между затратами и качеством результата.

Однако системы, основанные на задачах, часто дают сбой, когда намерения пользователя неоднозначны или меняются по ходу разговора - особенно в многооборотных диалогах. Маршрутизация на основе производительности, в свою очередь, склонна отдавать предпочтение статичным результатам, часто игнорируя реальные предпочтения пользователей и медленно адаптируясь к новым моделям без дорогостоящего переобучения.

Как отмечают исследователи из Katanemo Labs в своей статье, более глубокая проблема заключается в том, что "существующие методы маршрутизации имеют практические ограничения в реальных приложениях. Большинство из них оптимизированы под эталонную производительность, но не учитывают предпочтения людей, которые руководствуются субъективными критериями оценки".

Команда подчеркивает важность систем маршрутизации, которые "отражают субъективные человеческие суждения, обеспечивают большую прозрачность и легко настраиваются по мере развития моделей и приложений".

Новая схема маршрутизации с учетом предпочтений

Чтобы преодолеть эти проблемы, исследователи разработали систему "маршрутизации с учетом предпочтений", которая сопоставляет входящие запросы с правилами маршрутизации, основанными на пользовательских предпочтениях.

В этой системе пользователи определяют свои политики маршрутизации с помощью естественного языка, используя двухуровневую "Таксономию доменов и действий". Эта структура отражает то, как люди естественным образом описывают задачи: начиная с широкой категории - домена, например "юриспруденция" или "финансы", - и заканчивая конкретной задачей - действием, например "обобщение" или "кодирование".

Затем каждая политика сопоставляется с предпочтительной моделью, что позволяет разработчикам основывать выбор маршрутизации на практических требованиях, а не только на эталонных показателях. Согласно статье, "эта таксономия действует как ментальная модель, помогающая пользователям создавать четко определенные, структурированные политики маршрутизации".

Процедура маршрутизации состоит из двух этапов. Во-первых, модель маршрутизатора, ориентированная на предпочтения, оценивает запрос пользователя в сравнении со всеми доступными политиками и выбирает наиболее подходящую. Во-вторых, функция отображения связывает выбранную политику с назначенным ей LLM.

Поскольку логика выбора модели отделена от определения политики, разработчики могут добавлять, удалять или обновлять модели, просто редактируя правила маршрутизации, без переобучения или изменения маршрутизатора. Такое разделение обеспечивает необходимую гибкость для производственных сред, где модели и приложения постоянно меняются.

Система маршрутизации с учетом предпочтений (источник: arXiv)
Система маршрутизации, ориентированная на предпочтения Источник: arXiv

Выбор политики осуществляется с помощью Arch-Router, компактной языковой модели с 1,5 миллиардами параметров, оптимизированной для маршрутизации с учетом предпочтений. Arch-Router принимает на вход запрос пользователя и полный список описаний политик, а затем выдает идентификатор наиболее подходящей политики.

Поскольку политики включены в исходные данные, система может адаптироваться к новым или обновленным маршрутам в процессе вывода благодаря контекстному обучению - переобучение не требуется. Эта генеративная стратегия позволяет Arch-Router использовать свое предварительно обученное понимание для интерпретации смысла запроса и политик, а также анализировать всю историю разговоров за один раз.

Одним из распространенных опасений, связанных с включением длинных списков политик в запрос, является риск увеличения задержки. Однако команда создала Arch-Router с расчетом на высокую эффективность. "Даже при использовании обширных политик маршрутизации мы можем расширить контекстное окно Arch-Router с очень небольшим влиянием на задержку", - говорит Салман Парача, соавтор статьи и основатель/генеральный директор Katanemo Labs. Он отмечает, что задержка в основном определяется длиной вывода, а Arch-Router выводит только короткое имя политики - например, "image_editing" или "document_creation".

Arch-Router в действии

Чтобы создать Arch-Router, команда доработала вариант модели Qwen 2.5 с 1,5 млрд параметров, используя тщательно собранный набор данных из 43 000 примеров. Затем они сравнили ее с ведущими собственными моделями от OpenAI, Anthropic и Google на четырех публичных наборах данных, предназначенных для тестирования систем разговорного ИИ.

Результаты показали, что Arch-Router достигла наивысшей общей оценки маршрутизации 93,17 %, опередив все остальные модели, включая собственные модели высшего уровня, в среднем на 7,71 %. Преимущество модели стало более очевидным при длительных разговорах, продемонстрировав ее превосходную способность сохранять контекст при многократных обменах.

Arch-Router в сравнении с другими моделями (источник: arXiv)
Arch-Router в сравнении с другими моделями Источник: arXiv

В реальном мире эта методология уже применяется во многих ситуациях, отмечает Парача. Например, в платформах для кодирования с открытым исходным кодом разработчики полагаются на Arch-Router, чтобы направлять различные части своего рабочего процесса - "проектирование кода", "понимание кода" и "генерация кода" - к LLM, наиболее эффективным для каждого этапа. Аналогичным образом, организации могут направлять задачи по созданию документов в такую модель, как Claude 3.7 Sonnet, а запросы на редактирование изображений - в Gemini 2.5 Pro.

Система также хорошо подходит "для персональных помощников в различных областях, где пользователи выполняют целый ряд действий - от резюмирования текста до ответов на фактические запросы", - пояснил Парача, добавив, что "в таких ситуациях Arch-Router помогает командам разработчиков консолидировать и улучшать общий опыт пользователя".

Этот фреймворк встроен в Arch, ИИ-нативный прокси-сервер Katanemo Labs для агентов, который поддерживает реализацию гранулированных правил управления трафиком. Например, при добавлении нового LLM команда может перенаправить небольшой процент трафика по определенной политике на новую модель, проверить ее производительность с помощью внутренней аналитики, а затем уверенно переключить весь трафик. Компания также работает над интеграцией своих инструментов с платформами оценки, чтобы сделать этот рабочий процесс еще более удобным для корпоративных разработчиков.

По сути, цель состоит в том, чтобы помочь организациям выйти за рамки разрозненных внедрений ИИ. "Arch-Router и платформа Arch в целом позволяют разработчикам и компаниям перейти от фрагментарного использования LLM к единой, управляемой политиками системе", - говорит Парача. "Когда пользователи выполняют широкий спектр задач, наша платформа преобразует это разнообразие задач и моделей в целостный опыт, делая конечный продукт бесшовным и интуитивно понятным".

Связанная статья
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Google запускает Gemini в браузере Chrome в Индии Google запускает Gemini в браузере Chrome в Индии В среду компания Google объявила о расширении интеграции Gemini в браузере Chrome на новые регионы, включая Индию, Канаду и Новую Зеландию. Это обновление позволяет пользователям настольных компьютеро
Рекомендации по связанным специальным темам
Преобразование текста в речь Лучшие приложения с функцией преобразования текста в речь на базе ИИ для детей с дислексией: помощь в обучении и повышение эффективности чтения
Лучшие приложения с функцией преобразования текста в речь на базе ИИ для детей с дислексией: помощь в обучении и повышение эффективности чтения

Откройте для себя лучшие приложения с технологией TTS на базе искусственного интеллекта 2026 года, специально отобранные для помощи людям с дислексией. В нашем рейтинге экспертов сравниваются бесплатные и платные инструменты, а также освещаются мощные функции, способствующие повышению эффективности чтения и обучения. Откройте для себя революционные решения, которые обязательно стоит попробовать, чтобы раскрыть потенциал учащихся. Начните свое путешествие на XIX.AI.

10 инструментов
xix.ai
Создание комиксов Лучшие генераторы на базе ИИ для сёнэн-манги: создавайте динамичные сцены боевых действий и эффекты энергии
Лучшие генераторы на базе ИИ для сёнэн-манги: создавайте динамичные сцены боевых действий и эффекты энергии

Откройте для себя лучшие генераторы искусственного интеллекта для манги в стиле «сёнен» 2026 года на сайте XIX.AI. В нашем тщательно отобранном списке представлены мощные инструменты для создания динамичных сцен боевых действий и эффектных энергетических эффектов. Сравните бесплатные и платные варианты на основе реальных тестов. Раскройте свой творческий потенциал и начните создавать эпическую мангу уже сегодня!

15 инструментов
xix.ai
Бизнес Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы
Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы

Лучшие программы для учета расходов с ИИ 2026 года: самые популярные инструменты для сканирования чеков и автоматической классификации корпоративных расходов. Откройте для себя мощные, революционные решения для удобного управления расходами, точного финансового мониторинга и оптимизации соблюдения нормативных требований. Наш тщательно составленный и еженедельно обновляемый обзор бесплатных и платных вариантов поможет вам найти идеальный вариант. Воспользуйтесь преимуществами ИИ с помощью рекомендаций экспертов XIX.AI.

10 инструментов
xix.ai
Бизнес Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами
Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов
xix.ai
Производительность Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии
Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью
Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов
xix.ai
Комментарии (1)
0/500
WillGarcía
WillGarcía 6 апреля 2026 г., 5:00:35 GMT+03:00

Arch-Routerの構想は面白いね。社内でどのLLMを使うか毎回悩んでたから、これがあれば効率化に繋がりそう。ただ、精度93%って、結局残りの7%で重大なミスルーティングが起きたりしない? 医療や法務のようなクリティカルな分野への適用は少し不安かな。😅 開発元のKatanemo Labs、これでインフラ市場に本格参戦するつもり?

OR