Heim
Die Ant Group stellt die Open-Source-Version „Ling-2.6-flash“ vor, ein neues Mitglied der Baoling-Modellfamilie
Die Baoling-Großmodellreihe der Ant Group hat heute ein umfangreiches Update erhalten: Ling-2.6-flash steht Entwicklern weltweit nun offiziell zur Verfügung. Um unterschiedlichen Hardwareumgebungen gerecht zu werden und die Einführungshürden zu senken, wurden mit diesem Modell auch mehrere Präzisionsversionen eingeführt, darunter BF16, FP8 und INT4, die Entwicklern flexiblere Inferenzoptionen bieten.
Als Instruct-Modell mit insgesamt 104 Milliarden Parametern und 7,4 Milliarden aktivierten Parametern wurde Ling-2.6-flash zuvor unter dem Codenamen „Elephant Alpha“ auf der OpenRouter-Plattform getestet. Während eines zweiwöchigen Tests sammelte das Entwicklungsteam umfangreiches Feedback aus der Praxis und nahm gezielte Optimierungen vor, wobei insbesondere die Flüssigkeit beim Wechsel zwischen chinesischem und englischem Code verbessert und die Kompatibilität mit gängigen Programmier-Frameworks erhöht wurde.

Technische Highlights: Hybride Architektur und überragende Effizienz
Die Kernstärkevon Ling-2.6-flash liegt in seiner einzigartigen Architektur und hohen Betriebseffizienz:
Hybride lineare Architektur: Durch rechnerische Optimierungen auf niedriger Ebene erreicht das Modell eine hervorragende Inferenzgeschwindigkeit. Mit 4 H20-Karten erreicht es bis zu 340 Token/s. Beim Prefill-Durchsatz liefert es das 2,2-Fache von Nemotron-3-Super und reduziert so die Antwortlatenz erheblich.
Bemerkenswerte Token-Effizienz: Das Team hat die Token-Effizienz während des Trainings sorgfältig kalibriert. Auswertungsdaten zeigen, dass Ling-2.6-flash für Aufgaben gleicher Qualität nur etwa 15 Millionen Token verbraucht – etwa ein Zehntel vergleichbarer Wettbewerber –, was die kommerziellen Kosten erheblich senkt.
Vertiefung der Szenarien: Gezielte Verbesserungen der Agentenfähigkeiten
Für Agentenszenarien – einen der häufigsten Anwendungsfälle für große Modelle – wurdeLing-2.6-flash speziell verbessert. Ob bei der Abwicklung komplexer Tool-Aufrufe, der mehrstufigen Planung oder der endgültigen Aufgabenausführung: Das Modell arbeitet zuverlässig. In mehreren branchenüblichen Bewertungen wie BFCL-V4 und SWE-bench weist Ling-2.6-flash selbst im Vergleich zu Modellen mit einer größeren Anzahl aktivierter Parameter eine vergleichbare oder sogar State-of-the-Art (SOTA)-Leistung auf.
Entwickler können nun über Hugging Face und ModelScope (Moba Community) auf die Open-Source-Ressourcen des Modells zugreifen, was eine weitere Erforschung seines Potenzials in verschiedenen industriellen Anwendungen ermöglicht.
Verwandter Artikel
Bitte geben Sie den Titel des Artikels an, der in eine Frage umformuliert werden soll.
In der heutigen digitalen Welt verändert künstliche Intelligenz Branchen auf breiter Front, und das Bloggen bildet da keine Ausnahme. Blogger suchen ständig nach Möglichkeiten, ihre Arbeitsabläufe zu
Conntour sichert sich 7 Millionen Dollar von General Catalyst und YC für KI-gestützte Suche in Sicherheitsvideos
Die Überwachungstechnologiebranche steht derzeit im Fokus der Öffentlichkeit, wenn auch nicht aus den positivsten Gründen. Es kam zu Kontroversen, als die US-Einwanderungs- und Zollbehörde Berichten z
Apples erste KI-Hardware vorgestellt: AirPods mit Kamera treten in die DVT-Phase ein
Apples Ambitionen im Bereich der KI-Hardware werden immer deutlicher. Der bekannte Tech-Journalist Mark Gurman berichtet, dass die lang erwarteten AirPods mit integrierten Kameras nun in die entscheid
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)
Die Baoling-Großmodellreihe der Ant Group hat heute ein umfangreiches Update erhalten:
Als Instruct-Modell mit insgesamt 104 Milliarden Parametern und 7,4 Milliarden aktivierten Parametern wurde

Technische Highlights: Hybride Architektur und überragende Effizienz
Die Kernstärke
Hybride lineare Architektur: Durch rechnerische Optimierungen auf niedriger Ebene erreicht das Modell eine hervorragende Inferenzgeschwindigkeit. Mit 4 H20-Karten erreicht es bis zu 340 Token/s. Beim Prefill-Durchsatz liefert es das 2,2-Fache von Nemotron-3-Super und reduziert so die Antwortlatenz erheblich.
Bemerkenswerte Token-Effizienz: Das Team hat die Token-Effizienz während des Trainings sorgfältig kalibriert. Auswertungsdaten zeigen, dass
Vertiefung der Szenarien: Gezielte Verbesserungen der Agentenfähigkeiten
Für Agentenszenarien – einen der häufigsten Anwendungsfälle für große Modelle – wurde
Entwickler können nun über Hugging Face und ModelScope (Moba Community) auf die Open-Source-Ressourcen des Modells zugreifen, was eine weitere Erforschung seines Potenzials in verschiedenen industriellen Anwendungen ermöglicht.
Bitte geben Sie den Titel des Artikels an, der in eine Frage umformuliert werden soll.
In der heutigen digitalen Welt verändert künstliche Intelligenz Branchen auf breiter Front, und das Bloggen bildet da keine Ausnahme. Blogger suchen ständig nach Möglichkeiten, ihre Arbeitsabläufe zu
Conntour sichert sich 7 Millionen Dollar von General Catalyst und YC für KI-gestützte Suche in Sicherheitsvideos
Die Überwachungstechnologiebranche steht derzeit im Fokus der Öffentlichkeit, wenn auch nicht aus den positivsten Gründen. Es kam zu Kontroversen, als die US-Einwanderungs- und Zollbehörde Berichten z
Apples erste KI-Hardware vorgestellt: AirPods mit Kamera treten in die DVT-Phase ein
Apples Ambitionen im Bereich der KI-Hardware werden immer deutlicher. Der bekannte Tech-Journalist Mark Gurman berichtet, dass die lang erwarteten AirPods mit integrierten Kameras nun in die entscheid











