Heim
QwenLong-L1 löst komplexe Denkaufgaben, die über die Fähigkeiten aktueller LLMs hinausgehen
Die Alibaba Group hat QwenLong-L1 vorgestellt, ein neues Framework, das große Sprachmodelle (LLMs) in die Lage versetzt, außergewöhnlich lange Dokumente zu analysieren. Dieser Durchbruch hat das Potenzial, eine neue Generation von Unternehmensanwendungen voranzutreiben, die ein tiefes Verständnis und eine aufschlussreiche Analyse umfangreicher Materialien erfordern, darunter umfassende Unternehmensberichte, detaillierte Finanzberichte und komplexe rechtliche Vereinbarungen.
Das Hindernis der KI-Argumentation in Langform
Die jüngsten Fortschritte bei großen Schlussfolgerungsmodellen (LRMs), insbesondere durch verstärktes Lernen (RL), haben deren Problemlösungsfähigkeiten erheblich verbessert. Studien zeigen, dass RL-Feinabstimmung LRMs mit einer Form des „langsamen Denkens” ausstattet, die der menschlichen Kognition ähnelt und es ihnen ermöglicht, ausgefeilte Strategien für die Bewältigung komplexer Aufgaben zu entwickeln.
Diese Fortschritte beschränken sich jedoch weitgehend auf die Arbeit mit relativ kurzen Textpassagen, in der Regel etwa 4.000 Token. Eine erhebliche Hürde bleibt die Skalierung dieser Schlussfolgerungsfähigkeit auf weitaus längere Kontexte, beispielsweise 120.000 Token. Effektives Langzeit-Schlussfolgern erfordert ein solides Verständnis des gesamten Dokuments und die Fähigkeit zur mehrstufigen Analyse. „Diese Einschränkung behindert erheblich praktische Anwendungen, die externes Wissen erfordern, wie z. B. eingehende Recherchen, bei denen LRM Informationen aus datenreichen Quellen sammeln und verarbeiten müssen”, stellen die Entwickler von QwenLong-L1 in ihrer Forschungsarbeit fest.
Das Team fasst diese Hindernisse unter dem Begriff „Long-Context Reasoning RL“ zusammen. Im Gegensatz zum Kurzkontext-Schlussfolgern, das häufig das interne Wissen des Modells nutzt, erfordert dieser Ansatz, dass Modelle relevante Fakten in langen Eingaben genau finden und verankern. Nur dann können sie auf der Grundlage dieser abgerufenen Informationen logische Schlussfolgerungsketten aufbauen.
Das Training von Modellen für diesen Zweck mittels RL ist eine Herausforderung, die häufig zu ineffizientem Lernen und instabiler Optimierung führt. Modelle scheitern oft daran, zu effektiven Lösungen zu konvergieren, oder verlieren ihre Fähigkeit, verschiedene Argumentationswege zu erkunden.
QwenLong-L1: Ein strukturiertes, mehrstufiges Framework
QwenLong-L1 ist ein Framework für verstärktes Lernen, das entwickelt wurde, um LRMs dabei zu helfen, sich von der Verarbeitung kurzer Texte zu einer robusten Verallgemeinerung über lange Kontexte hinweg weiterzuentwickeln. Es verbessert bestehende LRMs für kurze Kontexte durch einen bewussten, schrittweisen Prozess:
Warm-up Supervised Fine-Tuning (SFT): Das Modell durchläuft zunächst ein SFT unter Verwendung von Beispielen für das Schlussfolgern in langen Kontexten. Diese Phase schafft eine solide Grundlage und lehrt das Modell, Informationen aus langen Dokumenten genau zu verankern und Kernkompetenzen im Kontextverständnis, in der Generierung logischer Ketten und in der Extraktion von Antworten zu entwickeln.
Curriculum-Guided Phased RL: Hier wird das Modell in mehreren Phasen trainiert, in denen die Länge der Zieldokumente schrittweise erhöht wird. Diese schrittweise, lehrplanbasierte Methode hilft dem Modell, seine Argumentationsstrategien stetig von kürzeren zu immer längeren Texten anzupassen, wodurch die Instabilität einer abrupten Konfrontation mit umfangreichen Dokumenten vermieden wird.
Schwierigkeitsbewusstes retrospektives Sampling: Die letzte Phase umfasst die anspruchsvollsten Beispiele aus früheren Trainingsphasen. Durch die Priorisierung schwieriger Fälle wird sichergestellt, dass das Modell weiterhin aus schwierigen Problemen lernt und dazu angeregt wird, vielfältigere und komplexere Schlussfolgerungswege zu erkunden.

QwenLong-L1-Prozess Quelle: arXiv Über dieses strukturierte Training hinaus verwendet QwenLong-L1 ein spezielles Belohnungssystem. Während beim Training für Aufgaben mit kurzem Kontext oft strenge regelbasierte Belohnungen verwendet werden (z. B. für eine richtige mathematische Antwort), verwendet QwenLong-L1 einen hybriden Mechanismus. Er kombiniert die regelbasierte Überprüfung der Genauigkeit mit einem „LLM-as-a-judge”, das die semantische Bedeutung der generierten Antwort mit der Referenz vergleicht. Dies ermöglicht eine größere Flexibilität bei der Bewertung der vielfältigen Möglichkeiten, wie richtige Antworten in langen, nuancierten Dokumenten formuliert werden können.
Bewertung der Leistung von QwenLong-L1
Das Alibaba-Team testete QwenLong-L1 in erster Linie anhand von Dokumenten-Frage-Antworten (DocQA), einer Aufgabe, die für Unternehmensanforderungen von großer Relevanz ist, bei der KI dichte Dokumente entschlüsseln muss, um komplexe Fragen zu beantworten.
Die Ergebnisse aus sieben DocQA-Benchmarks mit langem Kontext zeigten die Stärke von QwenLong-L1. Das Modell QWENLONG-L1-32B (basierend auf DeepSeek-R1-Distill-Qwen-32B) erreichte eine Leistung, die mit Anthropics Claude-3.7 Sonnet Thinking vergleichbar ist, und übertraf Modelle wie OpenAIs o3-mini und Qwen3-235B-A22B. Das kleinere Modell QWENLONG-L1-14B übertraf ebenfalls Gemini 2.0 Flash Thinking von Google und Qwen3-32B.

Quelle: arXiv Eine wichtige Erkenntnis für den Einsatz in der Praxis ist, wie RL-Training spezialisierte Verhaltensweisen für das Denken in langen Kontexten fördert. Die Studie hebt hervor, dass mit QwenLong-L1 trainierte Modelle sich in den Bereichen „Grounding” (Verknüpfung von Antworten mit bestimmten Dokumentabschnitten), „Subgoal Setting” (Aufschlüsselung komplexer Fragen), „Backtracking” (Identifizierung und Korrektur von Fehlern während des Denkprozesses) und „Verification” (Überprüfung der Antworten) verbessern.
Während ein Basismodell beispielsweise durch irrelevante Details in einem Finanzbericht aus der Bahn geworfen werden oder sich endlos in tangentialen Analysen verlieren könnte, zeigte ein mit QwenLong-L1 trainiertes Modell eine effektive Selbstreflexion. Es konnte ablenkende Informationen herausfiltern, falsche Ansätze zurückverfolgen und erfolgreich zur richtigen Schlussfolgerung gelangen.
Frameworks wie QwenLong-L1 könnten den Nutzen von KI für Unternehmen erheblich erweitern. Mögliche Anwendungsbereiche reichen von der Rechtstechnologie (Analyse umfangreicher Rechtsdokumente) über den Finanzbereich (Durchführung einer gründlichen Due Diligence von Jahresberichten und Finanzunterlagen für Risiko- oder Investitionsanalysen) bis hin zum Kundenservice (Überprüfung langer Interaktionshistorien, um kontextbezogenere Unterstützung zu bieten). Die Forscher haben den Code für das QwenLong-L1-Framework und die Gewichte für die trainierten Modelle öffentlich zugänglich gemacht.
Verwandter Artikel
Snowflake investiert über 600 Millionen Dollar in maßgeschneiderte AWS-Chips für den Ausbau der KI im Unternehmensbereich
Snowflake, der Cloud-Datenriese, hat Pläne bekannt gegeben, in den nächsten sechs Jahren über 600 Millionen US-Dollar in den Erwerb von CPUs und KI-Beschleunigern der Graviton-Serie zu investieren, di
China Telecom investiert in Mianbi Intelligence und erhöht das Kapital für LLM und Dateninfrastruktur auf 713.000 Yuan
Das „Nationalteam“ und die führende Persönlichkeit der Tsinghua-Universität im Bereich der großen Modelle vertiefen ihre strategische Zusammenarbeit. Am 1. März 2026 unterzog sich die Beijing Mianbi I
Die Taotian Group treibt ihre KI-orientierte Umstrukturierung voran und gewährt Praktikanten kostenlose Token-Kontingente
Die TaoTian Group hat kürzlich den „AI Productivity Plan“ eingeführt, der darauf abzielt, die Integration von KI-Technologie in E-Commerce-Abläufe und F&E-Workflows durch die Zuweisung von Ressourcen
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)
Die Alibaba Group hat QwenLong-L1 vorgestellt, ein neues Framework, das große Sprachmodelle (LLMs) in die Lage versetzt, außergewöhnlich lange Dokumente zu analysieren. Dieser Durchbruch hat das Potenzial, eine neue Generation von Unternehmensanwendungen voranzutreiben, die ein tiefes Verständnis und eine aufschlussreiche Analyse umfangreicher Materialien erfordern, darunter umfassende Unternehmensberichte, detaillierte Finanzberichte und komplexe rechtliche Vereinbarungen.
Das Hindernis der KI-Argumentation in Langform
Die jüngsten Fortschritte bei großen Schlussfolgerungsmodellen (LRMs), insbesondere durch verstärktes Lernen (RL), haben deren Problemlösungsfähigkeiten erheblich verbessert. Studien zeigen, dass RL-Feinabstimmung LRMs mit einer Form des „langsamen Denkens” ausstattet, die der menschlichen Kognition ähnelt und es ihnen ermöglicht, ausgefeilte Strategien für die Bewältigung komplexer Aufgaben zu entwickeln.
Diese Fortschritte beschränken sich jedoch weitgehend auf die Arbeit mit relativ kurzen Textpassagen, in der Regel etwa 4.000 Token. Eine erhebliche Hürde bleibt die Skalierung dieser Schlussfolgerungsfähigkeit auf weitaus längere Kontexte, beispielsweise 120.000 Token. Effektives Langzeit-Schlussfolgern erfordert ein solides Verständnis des gesamten Dokuments und die Fähigkeit zur mehrstufigen Analyse. „Diese Einschränkung behindert erheblich praktische Anwendungen, die externes Wissen erfordern, wie z. B. eingehende Recherchen, bei denen LRM Informationen aus datenreichen Quellen sammeln und verarbeiten müssen”, stellen die Entwickler von QwenLong-L1 in ihrer Forschungsarbeit fest.
Das Team fasst diese Hindernisse unter dem Begriff „Long-Context Reasoning RL“ zusammen. Im Gegensatz zum Kurzkontext-Schlussfolgern, das häufig das interne Wissen des Modells nutzt, erfordert dieser Ansatz, dass Modelle relevante Fakten in langen Eingaben genau finden und verankern. Nur dann können sie auf der Grundlage dieser abgerufenen Informationen logische Schlussfolgerungsketten aufbauen.
Das Training von Modellen für diesen Zweck mittels RL ist eine Herausforderung, die häufig zu ineffizientem Lernen und instabiler Optimierung führt. Modelle scheitern oft daran, zu effektiven Lösungen zu konvergieren, oder verlieren ihre Fähigkeit, verschiedene Argumentationswege zu erkunden.
QwenLong-L1: Ein strukturiertes, mehrstufiges Framework
QwenLong-L1 ist ein Framework für verstärktes Lernen, das entwickelt wurde, um LRMs dabei zu helfen, sich von der Verarbeitung kurzer Texte zu einer robusten Verallgemeinerung über lange Kontexte hinweg weiterzuentwickeln. Es verbessert bestehende LRMs für kurze Kontexte durch einen bewussten, schrittweisen Prozess:
Warm-up Supervised Fine-Tuning (SFT): Das Modell durchläuft zunächst ein SFT unter Verwendung von Beispielen für das Schlussfolgern in langen Kontexten. Diese Phase schafft eine solide Grundlage und lehrt das Modell, Informationen aus langen Dokumenten genau zu verankern und Kernkompetenzen im Kontextverständnis, in der Generierung logischer Ketten und in der Extraktion von Antworten zu entwickeln.
Curriculum-Guided Phased RL: Hier wird das Modell in mehreren Phasen trainiert, in denen die Länge der Zieldokumente schrittweise erhöht wird. Diese schrittweise, lehrplanbasierte Methode hilft dem Modell, seine Argumentationsstrategien stetig von kürzeren zu immer längeren Texten anzupassen, wodurch die Instabilität einer abrupten Konfrontation mit umfangreichen Dokumenten vermieden wird.
Schwierigkeitsbewusstes retrospektives Sampling: Die letzte Phase umfasst die anspruchsvollsten Beispiele aus früheren Trainingsphasen. Durch die Priorisierung schwieriger Fälle wird sichergestellt, dass das Modell weiterhin aus schwierigen Problemen lernt und dazu angeregt wird, vielfältigere und komplexere Schlussfolgerungswege zu erkunden.

Über dieses strukturierte Training hinaus verwendet QwenLong-L1 ein spezielles Belohnungssystem. Während beim Training für Aufgaben mit kurzem Kontext oft strenge regelbasierte Belohnungen verwendet werden (z. B. für eine richtige mathematische Antwort), verwendet QwenLong-L1 einen hybriden Mechanismus. Er kombiniert die regelbasierte Überprüfung der Genauigkeit mit einem „LLM-as-a-judge”, das die semantische Bedeutung der generierten Antwort mit der Referenz vergleicht. Dies ermöglicht eine größere Flexibilität bei der Bewertung der vielfältigen Möglichkeiten, wie richtige Antworten in langen, nuancierten Dokumenten formuliert werden können.
Bewertung der Leistung von QwenLong-L1
Das Alibaba-Team testete QwenLong-L1 in erster Linie anhand von Dokumenten-Frage-Antworten (DocQA), einer Aufgabe, die für Unternehmensanforderungen von großer Relevanz ist, bei der KI dichte Dokumente entschlüsseln muss, um komplexe Fragen zu beantworten.
Die Ergebnisse aus sieben DocQA-Benchmarks mit langem Kontext zeigten die Stärke von QwenLong-L1. Das Modell QWENLONG-L1-32B (basierend auf DeepSeek-R1-Distill-Qwen-32B) erreichte eine Leistung, die mit Anthropics Claude-3.7 Sonnet Thinking vergleichbar ist, und übertraf Modelle wie OpenAIs o3-mini und Qwen3-235B-A22B. Das kleinere Modell QWENLONG-L1-14B übertraf ebenfalls Gemini 2.0 Flash Thinking von Google und Qwen3-32B.

Eine wichtige Erkenntnis für den Einsatz in der Praxis ist, wie RL-Training spezialisierte Verhaltensweisen für das Denken in langen Kontexten fördert. Die Studie hebt hervor, dass mit QwenLong-L1 trainierte Modelle sich in den Bereichen „Grounding” (Verknüpfung von Antworten mit bestimmten Dokumentabschnitten), „Subgoal Setting” (Aufschlüsselung komplexer Fragen), „Backtracking” (Identifizierung und Korrektur von Fehlern während des Denkprozesses) und „Verification” (Überprüfung der Antworten) verbessern.
Während ein Basismodell beispielsweise durch irrelevante Details in einem Finanzbericht aus der Bahn geworfen werden oder sich endlos in tangentialen Analysen verlieren könnte, zeigte ein mit QwenLong-L1 trainiertes Modell eine effektive Selbstreflexion. Es konnte ablenkende Informationen herausfiltern, falsche Ansätze zurückverfolgen und erfolgreich zur richtigen Schlussfolgerung gelangen.
Frameworks wie QwenLong-L1 könnten den Nutzen von KI für Unternehmen erheblich erweitern. Mögliche Anwendungsbereiche reichen von der Rechtstechnologie (Analyse umfangreicher Rechtsdokumente) über den Finanzbereich (Durchführung einer gründlichen Due Diligence von Jahresberichten und Finanzunterlagen für Risiko- oder Investitionsanalysen) bis hin zum Kundenservice (Überprüfung langer Interaktionshistorien, um kontextbezogenere Unterstützung zu bieten). Die Forscher haben den Code für das QwenLong-L1-Framework und die Gewichte für die trainierten Modelle öffentlich zugänglich gemacht.
Snowflake investiert über 600 Millionen Dollar in maßgeschneiderte AWS-Chips für den Ausbau der KI im Unternehmensbereich
Snowflake, der Cloud-Datenriese, hat Pläne bekannt gegeben, in den nächsten sechs Jahren über 600 Millionen US-Dollar in den Erwerb von CPUs und KI-Beschleunigern der Graviton-Serie zu investieren, di
China Telecom investiert in Mianbi Intelligence und erhöht das Kapital für LLM und Dateninfrastruktur auf 713.000 Yuan
Das „Nationalteam“ und die führende Persönlichkeit der Tsinghua-Universität im Bereich der großen Modelle vertiefen ihre strategische Zusammenarbeit. Am 1. März 2026 unterzog sich die Beijing Mianbi I
Die Taotian Group treibt ihre KI-orientierte Umstrukturierung voran und gewährt Praktikanten kostenlose Token-Kontingente
Die TaoTian Group hat kürzlich den „AI Productivity Plan“ eingeführt, der darauf abzielt, die Integration von KI-Technologie in E-Commerce-Abläufe und F&E-Workflows durch die Zuweisung von Ressourcen











