Neues 1,5-Billionen-Dollar-Router-Modell erreicht 93 % Genauigkeit, wodurch teure Umschulungskosten entfallen

Heim

Nachricht

24. November 2025

KennethCarter

# research # Google # openai # LLMs # qwen-2-5

Forscher der Katanemo Labs haben Arch-Router vorgestellt, ein fortschrittliches Routing-Modell und Framework, das Benutzeranfragen auf intelligente Weise an das am besten geeignete große Sprachmodell (LLM) weiterleitet.

Für Unternehmen, die Produkte entwickeln, die mehrere LLMs nutzen, löst Arch-Rolver ein zentrales Dilemma: Wie kann man jede Anfrage automatisch an das ideale Modell für die jeweilige Aufgabe weiterleiten, ohne auf eine unflexible Logik oder teure Umschulung angewiesen zu sein, wenn Aktualisierungen erforderlich sind?

Die Herausforderungen des LLM-Routings

Da die Vielfalt der verfügbaren LLMs zunimmt, gehen die Entwickler von Konfigurationen mit nur einem Modell zu Architekturen mit mehreren Modellen über, die die unterschiedlichen Fähigkeiten der verschiedenen Modelle für spezielle Funktionen nutzen, z. B. für die Generierung von Code, die Zusammenfassung von Text oder die Bearbeitung von Bildern.

Das LLM-Routing ist zu einer wesentlichen Technik für die Konstruktion und den Betrieb solcher Systeme geworden, da es als intelligenter Verkehrsleiter fungiert, der jede Benutzeranfrage zu dem Modell leitet, das am besten für die Bearbeitung geeignet ist.

Derzeitige Routing-Ansätze lassen sich im Allgemeinen in zwei Hauptgruppen einteilen: aufgabenbasiertes Routing, bei dem Abfragen entsprechend vordefinierter Aufgabenkategorien zugewiesen werden, und leistungsbasiertes Routing, bei dem der beste Kompromiss zwischen Aufwand und Ausgabequalität gesucht wird.

Aufgabenbasierte Systeme scheitern jedoch häufig, wenn die Absicht des Benutzers mehrdeutig ist oder sich im Laufe eines Gesprächs ändert - insbesondere bei Dialogen mit mehreren Gesprächspartnern. Leistungsbasiertes Routing hingegen neigt dazu, statische Benchmark-Ergebnisse zu bevorzugen, wobei die tatsächlichen Benutzerpräferenzen häufig übersehen werden und die Anpassung an neue Modelle ohne kostspieliges Neutraining nur langsam erfolgt.

Wie die Forscher von Katanemo Labs in ihrem Papier feststellen, liegt ein tieferes Problem darin, dass "bestehende Routing-Methoden in realen Anwendungen praktische Grenzen haben. Die meisten sind für Benchmark-Leistungen optimiert, ignorieren aber menschliche Präferenzen, die sich an subjektiven Bewertungskriterien orientieren".

Das Team betont die Bedeutung von Routing-Systemen, die "subjektive menschliche Einschätzungen widerspiegeln, mehr Transparenz bieten und leicht anpassbar sind, wenn sich sowohl Modelle als auch Anwendungen weiterentwickeln."

Ein neuer Rahmen für präferenzorientiertes Routing

Um diese Probleme zu überwinden, entwickelten die Forscher ein "präferenzorientiertes Routing"-Framework, das eingehende Anfragen mit Routing-Regeln abgleicht, die auf individuellen Benutzerpräferenzen basieren.

In diesem System definieren die Benutzer ihre Routing-Richtlinien in natürlicher Sprache über eine zweistufige "Domain-Action Taxonomy". Diese Struktur spiegelt die natürliche Art und Weise wider, wie Menschen Aufgaben beschreiben: beginnend mit einer breiten Kategorie - dem Bereich, wie z. B. "Recht" oder "Finanzen" - bis hin zu einer spezifischen Aufgabe - der Aktion, wie z. B. "Zusammenfassung" oder "Codierung".

Jede Richtlinie wird dann auf ein bevorzugtes Modell abgebildet, so dass die Entwickler ihre Routing-Entscheidungen auf praktische Anforderungen und nicht nur auf Benchmark-Metriken stützen können. In dem Papier heißt es: "Diese Taxonomie dient als mentales Modell, das den Benutzern hilft, klar definierte, strukturierte Routing-Richtlinien zu erstellen."

Das Routing-Verfahren läuft in zwei Phasen ab. Zunächst wertet ein an den Präferenzen ausgerichtetes Routermodell die Anfrage des Benutzers mit allen verfügbaren Richtlinien aus und wählt die am besten geeignete aus. Zweitens verbindet eine Mapping-Funktion die ausgewählte Richtlinie mit dem ihr zugewiesenen LLM.

Da die Logik für die Auswahl eines Modells von der Richtliniendefinition getrennt ist, können Entwickler Modelle hinzufügen, entfernen oder aktualisieren, indem sie einfach die Routingregeln bearbeiten - ohne den Router neu zu trainieren oder zu ändern. Diese Trennung ermöglicht die notwendige Flexibilität für Produktionsumgebungen, in denen sich Modelle und Anwendungen ständig ändern.

Rahmenwerk für präferenzorientiertes Routing (Quelle: arXiv)

Präferenzorientiertes Routing-Framework Quelle: arXiv

Die Richtlinienauswahl wird von Arch-Router unterstützt, einem kompakten Sprachmodell mit 1,5 Milliarden Parametern, das für präferenzorientiertes Routing optimiert ist. Arch-Router nimmt die Benutzeranfrage und die vollständige Liste der Richtlinienbeschreibungen als Eingabe und gibt dann die Kennung der am besten geeigneten Richtlinie aus.

Da die Richtlinien in der Eingabe enthalten sind, kann sich das System während der Inferenz durch kontextinternes Lernen an neue oder aktualisierte Routen anpassen - ein erneutes Training ist nicht erforderlich. Diese generative Strategie ermöglicht es Arch-Router, sein bereits trainiertes Verständnis zu nutzen, um die Bedeutung sowohl der Anfrage als auch der Richtlinien zu interpretieren und komplette Gesprächsverläufe in einem Durchgang zu analysieren.

Eine häufige Sorge bei der Aufnahme langer Richtlinienlisten in eine Eingabeaufforderung ist das Risiko einer höheren Latenzzeit. Das Team hat Arch-Router jedoch mit Blick auf hohe Effizienz entwickelt. "Selbst bei umfangreichen Routing-Richtlinien können wir das Kontextfenster von Arch-Router mit sehr geringen Auswirkungen auf die Latenzzeit erweitern", sagt Salman Paracha, Mitautor der Studie und Gründer/CEO von Katanemo Labs. Er weist darauf hin, dass die Latenz vor allem durch die Länge der Ausgabe bestimmt wird, und Arch-Router gibt nur einen kurzen Richtliniennamen aus, wie z. B. "image_editing" oder "document_creation".

Arch-Router in Aktion

Um Arch-Router zu entwickeln, hat das Team eine 1,5B-Parameter-Variante des Qwen 2.5-Modells anhand eines sorgfältig zusammengestellten Datensatzes von 43.000 Beispielen feinabgestimmt. Anschließend verglichen sie es mit führenden proprietären Modellen von OpenAI, Anthropic und Google in vier öffentlichen Datensätzen, die zum Testen von KI-Systemen für Unterhaltungen entwickelt wurden.

Die Ergebnisse zeigen, dass Arch-Router die beste Gesamt-Routing-Punktzahl von 93,17 % erreichte und alle anderen Modelle - einschließlich der führenden proprietären Modelle - um durchschnittlich 7,71 % übertraf. Der Vorteil des Modells wurde bei längeren Unterhaltungen deutlicher, was seine überlegene Fähigkeit zur Aufrechterhaltung des Kontexts über mehrere Austauschvorgänge hinweg verdeutlicht.

Arch-Router im Vergleich zu anderen Modellen Quelle: arXiv

In der realen Welt wird diese Methodik bereits in verschiedenen Bereichen angewendet, bemerkt Paracha. In Open-Source-Codierungsplattformen beispielsweise verlassen sich Entwickler auf Arch-Router, um verschiedene Teile ihres Arbeitsablaufs - wie "Code-Design", "Code-Verständnis" und "Code-Generierung" - zu den LLMs zu leiten, die für jeden Schritt am effektivsten sind. In ähnlicher Weise können Unternehmen Aufgaben zur Dokumentenerstellung an ein Modell wie Claude 3.7 Sonnet weiterleiten, während sie Anfragen zur Bildbearbeitung an Gemini 2.5 Pro senden.

Das System eignet sich auch "für persönliche Assistenten in verschiedenen Bereichen, in denen Benutzer eine Reihe von Aktivitäten ausführen, von der Zusammenfassung von Texten bis zur Beantwortung von Sachfragen", erklärte Paracha und fügte hinzu, dass "in solchen Situationen Arch-Router den Produktteams hilft, die Gesamterfahrung des Benutzers zu konsolidieren und zu verbessern."

Dieses Framework ist in Arch, dem KI-nativen Proxy-Server für Agenten von Katanemo Labs, integriert, der die Implementierung von granularen Regeln für das Verkehrsmanagement unterstützt. So kann ein Team beispielsweise beim Hinzufügen eines neuen LLM einen kleinen Prozentsatz des Datenverkehrs im Rahmen einer bestimmten Richtlinie an das neue Modell weiterleiten, dessen Leistung mithilfe interner Analysen validieren und dann den gesamten Datenverkehr vertrauensvoll umleiten. Das Unternehmen arbeitet außerdem an der Integration seiner Tools in Bewertungsplattformen, um diesen Arbeitsablauf für Unternehmensentwickler noch reibungsloser zu gestalten.

Im Kern geht es darum, Unternehmen dabei zu helfen, über unzusammenhängende KI-Implementierungen hinauszugehen. "Arch-Router - und die Arch-Plattform insgesamt - ermöglicht es Entwicklern und Unternehmen, von einer fragmentierten LLM-Nutzung zu einem einheitlichen, richtliniengesteuerten System überzugehen", erklärt Paracha. "Wenn Benutzer ein breites Spektrum an Aufgaben ausführen, wandelt unsere Plattform diese Vielfalt an Aufgaben und Modellen in eine kohärente Erfahrung um, sodass sich das Endprodukt nahtlos und intuitiv anfühlt."

Verwandter Artikel

Satya Nadella bereit, die neuen Vorteile der Vereinbarung mit OpenAI zu nutzen Am Mittwoch fragte ein Analyst von Wall Street den Microsoft-CEO Satya Nadella direkt, wie die überarbeitete Partnerschaft mit OpenAI die finanziellen Ergebnisse des Unternehmens beeinflussen würde.Nadella bezeichnete die neue Vereinbarung als einen

OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir

Google führt Gemini in Chrome in Indien ein Am Mittwoch gab Google bekannt, dass es die Integration von Gemini in Chrome auf neue Regionen ausweitet, darunter Indien, Kanada und Neuseeland. Durch diese Einführung können Desktop-Nutzer über eine

Empfehlungen zu verwandten Spezialthemen

Comic-Erstellung

Die besten KI-Generatoren für Shonen-Manga: Erstelle actiongeladene Sequenzen und dynamische Effekte

Entdecken Sie bei XIX.AI die besten KI-Generatoren für Shonen-Manga des Jahres 2026. Unsere sorgfältig zusammengestellte Liste der Top-Anbieter umfasst leistungsstarke Tools zur Erstellung actiongeladener Sequenzen und dynamischer Energieeffekte. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Entfalten Sie Ihr kreatives Potenzial und beginnen Sie noch heute mit der Gestaltung epischer Manga!

15 Tools

xix.ai

Geschäft

Die besten KI-basierten Spesenabrechnungsprogramme: Quittungen scannen und Geschäftsausgaben automatisch kategorisieren

Die besten KI-basierten Spesenmanager 2026: Erstklassige Tools zum Scannen von Belegen und zur automatischen Kategorisierung von Unternehmensausgaben. Entdecken Sie leistungsstarke, bahnbrechende Lösungen für müheloses Spesenmanagement, präzise Finanzüberwachung und optimierte Compliance. Unser sorgfältig zusammengestellter, wöchentlich aktualisierter Vergleich zwischen kostenlosen und kostenpflichtigen Optionen hilft Ihnen dabei, die perfekte Lösung zu finden. Nutzen Sie Ihren KI-Vorteil mit den Expertenempfehlungen von XIX.AI.

10 Tools

xix.ai

Geschäft

Die besten KI-Tools für die Personalbeschaffung: Lebensläufe prüfen und die Terminplanung für Vorstellungsgespräche automatisieren

Entdecken Sie auf XIX.AI die besten KI-Tools für die Personalbeschaffung des Jahres 2026. Unsere sorgfältig zusammengestellte Liste umfasst leistungsstarke, bahnbrechende Lösungen für die Sichtung von Lebensläufen und die automatisierte Terminplanung für Vorstellungsgespräche. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Finden Sie Ihren perfekten Assistenten für die Personalbeschaffung und optimieren Sie noch heute Ihren Rekrutierungsprozess!

10 Tools

xix.ai

Produktivität

KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern

Entdecken Sie auf XIX.AI die besten KI-basierten Coaches für persönliches Wohlbefinden und Konzentration des Jahres 2026. Unsere sorgfältig zusammengestellte Rangliste umfasst erstklassige, bahnbrechende Tools zur Bewältigung von Burnout und zur Steigerung der mentalen Energie. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Schlagen Sie noch heute den Weg zu höchster Produktivität und Wohlbefinden ein.

10 Tools

xix.ai

Chatbot

Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf

Entdecken Sie die besten KI-Romantik-Chatbots des Jahres 2026, mit denen Sie echte, langfristige Beziehungen aufbauen können. Unsere sorgfältig zusammengestellte Liste bietet Ihnen überzeugende, konsistente Persönlichkeiten, Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten sowie Tests aus der Praxis. Finden Sie Ihren perfekten Begleiter und legen Sie noch heute bei XIX.AI los.

10 Tools

xix.ai

Bildung und Lernen

Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.

Entdecken Sie die besten AI-Data-Science-Mentoren von 2026, um SQL, Pandas und ML-Arbeitsabläufe zu meistern. Erfahren Sie mehr über unsere hochbewerteten, sorgfältig ausgewählten Angebote bei XIX.AI – für effektive und bahnbrechende Anleitung. Vergleichen Sie kostenlose und bezahlte Optionen mit praktischen Einblicken aus der Praxis. Entfalten Sie Ihr Potenzial in der Data Science noch heute.

10 Tools

xix.ai

Kommentare (1)

0/500

Bitte melden Sie sich zuerst an

WillGarcía

6. April 2026 04:00:35 MESZ

Arch-Routerの構想は面白いね。社内でどのLLMを使うか毎回悩んでたから、これがあれば効率化に繋がりそう。ただ、精度93%って、結局残りの7%で重大なミスルーティングが起きたりしない？医療や法務のようなクリティカルな分野への適用は少し不安かな。😅 開発元のKatanemo Labs、これでインフラ市場に本格参戦するつもり？

Top -Nachrichten

AI Builder und Power Automate Revolutionieren die Dokumentenzusammenfassung KI -Hosts des Notebooklm -Podcasts, das jetzt für Interviews verfügbar ist China stellt nationale Standards für humanoide Roboter und verkörperte Intelligenz vor Ramp-Daten zeigen, dass die Akzeptanz von KI in Unternehmen sinkt Bing Image Creator Tutorial: Anleitung zur KI-Kunstgenerierung Lernen Sie, AI-Musik mit Ihrer Stimme zu erstellen: ein Schritt-für-Schritt-Suno-Tutorial iMyFone MagicMic: Echtzeit-AI-Stimmerveränderer Bewertung und Tutorial Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen DeepSeek V4 revolutioniert multimodale KI Embodied Intelligence stellt ersten Branchenstandard zur Eindämmung unkontrollierten Wachstums vor

Mehr

Vorgestellt