Heim
Meituan stellt das KI-Modell „LongCat-Next“ mit einer einheitlichen Architektur für Bildverarbeitung und Spracherkennung vor

Am 3. April stellte das MiTi-Team offiziell das native multimodale Großmodell LongCat-Next vor. Dieses Modell geht über den herkömmlichen Ansatz „Sprachgrundlage plus Plugins“ hinaus, indem es Bilder, Audio und Text in einen einheitlichen Strom diskreter Token umwandelt. Dadurch kann die KI die physische Welt nativ „sehen“ und „hören“ und diese Eingaben genauso verarbeiten wie Text.
Technischer Kern: DiNA-Architektur ermöglicht „Modalitätsinternalisierung“
Um Barrieren zwischen verschiedenen Datentypen zu beseitigen, entwickelte MiTi die DiNA-Architektur (Discrete Native Autoregressive) und erreichte damit eine tiefgreifende Vereinheitlichung in der multimodalen Modellierung:
Vollständige Modalitätsvereinheitlichung: Das Modell verwendet für Text, Bilder und Audio dieselben Parameter, Aufmerksamkeitsmechanismen und Verlustfunktionen.
Symmetrie von Verständnis und Generierung: Innerhalb eines einzigen mathematischen Rahmens stellt die Vorhersage des nächsten Text-Tokens das „Verstehen“ dar, während die Vorhersage eines Bild-Tokens die „Generierung“ ist. Beide Prozesse zeigen während des Trainings erhebliche synergetische Vorteile.
Extreme Komprimierung: Mithilfe des dNaViT Visual Tokenizer verarbeitet es Eingaben in beliebiger Auflösung. Durch einen 8-schichtigen Residual-Vektorquantisierungs-Prozess erreicht es eine bis zu 28-fache Komprimierung im Pixelraum, während wichtige Details für Aufgaben wie OCR und die Analyse von Finanzdokumenten erhalten bleiben.
Empirische Leistung: Diskrete Modellierung kennt keine inhärenten Grenzen
LongCat-Next liefert eine Leistung, die spezialisierte Modelle in mehreren Benchmarks übertrifft, und stellt damit die traditionelle Vorstellung, dass „Diskretisierung unweigerlich zu Informationsverlust führt“, effektiv in Frage:
Fein abgestimmte Wahrnehmung: Auf dem OmniDocBench für Szenarien mit dichtem Text übertrifft es nicht nur Qwen3-Omni, sondern auch das spezialisierte Bildverarbeitungsmodell Qwen3-VL.
Visuelles Schlussfolgern: Es erzielte beeindruckende 83,1 Punkte bei MathVista und demonstrierte damit robustes, industrietaugliches logisches Schlussfolgern.
Modalitätenübergreifende Zusammenarbeit: Unter Beibehaltung führender Sprachfähigkeiten (C-Eval 86,80) unterstützt es die parallele Generierung von Text und Sprache mit geringer Latenz sowie anpassbares Voice Cloning.
Brancheneinblick: Eine Grundlage für KI in der physischen Welt
Große Sprachmodelle haben sich lange Zeit auf Text konzentriert. Der Durchbruch von LongCat-Next besteht darin, dass es beweist, dass Informationen aus der physischen Welt wie Sprache diskretisiert und modelliert werden können. Wenn eine KI über eine einheitliche „Muttersprache“ verfügt, wird sie intelligenter und intuitiver beim Einsatz von Werkzeugen, beim Schreiben von Code oder beim Interpretieren komplexer Diagramme.
MiTi hat nun das LongCat-Next-Modell und den dNaViT-Tokenizer als Open Source veröffentlicht. Diese effiziente, vielversprechende native diskrete Architektur bietet Entwicklern wesentliche Werkzeuge für den Aufbau von KI, die die reale Welt wahrnehmen und mit ihr interagieren kann.
Verwandter Artikel
Das MIIT bittet die Öffentlichkeit um Rückmeldungen zu 121 Branchenstandards, darunter auch das Protokoll zum Kontext von KI-Modellen.
Das chinesische Ministerium für Industrie und Informationstechnologie hat offiziell eine Mitteilung veröffentlicht, in der es die Öffentlichkeit um Rückmeldungen zu 121 Standardisierungsprojekten im Industriebereich bittet, darunter auch die „Anforde
OpenAI arbeitet mit dem US-Verteidigungsministerium zusammen – Die Zahl der Deinstallierungen von ChatGPT steigt um 295 Prozent
Öffentliche Empörung: OpenAI’s Militärpartnerschaft löst eine Welle von Abmeldungen ausKürzlich kündigte der führende KI-Anbieter OpenAI eine enge Partnerschaft mit dem US-Verteidigungsministerium an, bei der seine KI-Modelle in hochgeheime militäri
OpenAI führt die „Sites“-Funktion ein und läutet mit den auf Word basierenden Websites das Ende der No-Code-Ära ein
OpenAI hat „Sites“ vorgestellt, eine neue Funktion für „Codex“, seine KI für die Softwareentwicklung. Die Funktion befindet sich derzeit in der Vorschauphase und steht nur zahlenden Business- und Ente
Empfehlungen zu verwandten Spezialthemen
Kommentare (1)
Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

Am 3. April stellte das MiTi-Team offiziell das native multimodale Großmodell LongCat-Next vor. Dieses Modell geht über den herkömmlichen Ansatz „Sprachgrundlage plus Plugins“ hinaus, indem es Bilder, Audio und Text in einen einheitlichen Strom diskreter Token umwandelt. Dadurch kann die KI die physische Welt nativ „sehen“ und „hören“ und diese Eingaben genauso verarbeiten wie Text.
Technischer Kern: DiNA-Architektur ermöglicht „Modalitätsinternalisierung“
Um Barrieren zwischen verschiedenen Datentypen zu beseitigen, entwickelte MiTi die DiNA-Architektur (Discrete Native Autoregressive) und erreichte damit eine tiefgreifende Vereinheitlichung in der multimodalen Modellierung:
Vollständige Modalitätsvereinheitlichung: Das Modell verwendet für Text, Bilder und Audio dieselben Parameter, Aufmerksamkeitsmechanismen und Verlustfunktionen.
Symmetrie von Verständnis und Generierung: Innerhalb eines einzigen mathematischen Rahmens stellt die Vorhersage des nächsten Text-Tokens das „Verstehen“ dar, während die Vorhersage eines Bild-Tokens die „Generierung“ ist. Beide Prozesse zeigen während des Trainings erhebliche synergetische Vorteile.
Extreme Komprimierung: Mithilfe des dNaViT Visual Tokenizer verarbeitet es Eingaben in beliebiger Auflösung. Durch einen 8-schichtigen Residual-Vektorquantisierungs-Prozess erreicht es eine bis zu 28-fache Komprimierung im Pixelraum, während wichtige Details für Aufgaben wie OCR und die Analyse von Finanzdokumenten erhalten bleiben.
Empirische Leistung: Diskrete Modellierung kennt keine inhärenten Grenzen
LongCat-Next liefert eine Leistung, die spezialisierte Modelle in mehreren Benchmarks übertrifft, und stellt damit die traditionelle Vorstellung, dass „Diskretisierung unweigerlich zu Informationsverlust führt“, effektiv in Frage:
Fein abgestimmte Wahrnehmung: Auf dem OmniDocBench für Szenarien mit dichtem Text übertrifft es nicht nur Qwen3-Omni, sondern auch das spezialisierte Bildverarbeitungsmodell Qwen3-VL.
Visuelles Schlussfolgern: Es erzielte beeindruckende 83,1 Punkte bei MathVista und demonstrierte damit robustes, industrietaugliches logisches Schlussfolgern.
Modalitätenübergreifende Zusammenarbeit: Unter Beibehaltung führender Sprachfähigkeiten (C-Eval 86,80) unterstützt es die parallele Generierung von Text und Sprache mit geringer Latenz sowie anpassbares Voice Cloning.
Brancheneinblick: Eine Grundlage für KI in der physischen Welt
Große Sprachmodelle haben sich lange Zeit auf Text konzentriert. Der Durchbruch von LongCat-Next besteht darin, dass es beweist, dass Informationen aus der physischen Welt wie Sprache diskretisiert und modelliert werden können. Wenn eine KI über eine einheitliche „Muttersprache“ verfügt, wird sie intelligenter und intuitiver beim Einsatz von Werkzeugen, beim Schreiben von Code oder beim Interpretieren komplexer Diagramme.
MiTi hat nun das LongCat-Next-Modell und den dNaViT-Tokenizer als Open Source veröffentlicht. Diese effiziente, vielversprechende native diskrete Architektur bietet Entwicklern wesentliche Werkzeuge für den Aufbau von KI, die die reale Welt wahrnehmen und mit ihr interagieren kann.
Das MIIT bittet die Öffentlichkeit um Rückmeldungen zu 121 Branchenstandards, darunter auch das Protokoll zum Kontext von KI-Modellen.
Das chinesische Ministerium für Industrie und Informationstechnologie hat offiziell eine Mitteilung veröffentlicht, in der es die Öffentlichkeit um Rückmeldungen zu 121 Standardisierungsprojekten im Industriebereich bittet, darunter auch die „Anforde
OpenAI arbeitet mit dem US-Verteidigungsministerium zusammen – Die Zahl der Deinstallierungen von ChatGPT steigt um 295 Prozent
Öffentliche Empörung: OpenAI’s Militärpartnerschaft löst eine Welle von Abmeldungen ausKürzlich kündigte der führende KI-Anbieter OpenAI eine enge Partnerschaft mit dem US-Verteidigungsministerium an, bei der seine KI-Modelle in hochgeheime militäri
OpenAI führt die „Sites“-Funktion ein und läutet mit den auf Word basierenden Websites das Ende der No-Code-Ära ein
OpenAI hat „Sites“ vorgestellt, eine neue Funktion für „Codex“, seine KI für die Softwareentwicklung. Die Funktion befindet sich derzeit in der Vorschauphase und steht nur zahlenden Business- und Ente
Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐











