Meituan stellt das KI-Modell „LongCat-Next“ mit einer einheitlichen Architektur für Bildverarbeitung und Spracherkennung vor

Heim

Nachricht

12. April 2026

StephenMiller

112

Meituan stellt das KI-Modell „LongCat-Next“ mit einer einheitlichen Architektur für Bildverarbeitung und Spracherkennung vor

Am 3. April stellte das MiTi-Team offiziell das native multimodale Großmodell LongCat-Next vor. Dieses Modell geht über den herkömmlichen Ansatz „Sprachgrundlage plus Plugins“ hinaus, indem es Bilder, Audio und Text in einen einheitlichen Strom diskreter Token umwandelt. Dadurch kann die KI die physische Welt nativ „sehen“ und „hören“ und diese Eingaben genauso verarbeiten wie Text.

Technischer Kern: DiNA-Architektur ermöglicht „Modalitätsinternalisierung“

Um Barrieren zwischen verschiedenen Datentypen zu beseitigen, entwickelte MiTi die DiNA-Architektur (Discrete Native Autoregressive) und erreichte damit eine tiefgreifende Vereinheitlichung in der multimodalen Modellierung:

Vollständige Modalitätsvereinheitlichung: Das Modell verwendet für Text, Bilder und Audio dieselben Parameter, Aufmerksamkeitsmechanismen und Verlustfunktionen.

Symmetrie von Verständnis und Generierung: Innerhalb eines einzigen mathematischen Rahmens stellt die Vorhersage des nächsten Text-Tokens das „Verstehen“ dar, während die Vorhersage eines Bild-Tokens die „Generierung“ ist. Beide Prozesse zeigen während des Trainings erhebliche synergetische Vorteile.

Extreme Komprimierung: Mithilfe des dNaViT Visual Tokenizer verarbeitet es Eingaben in beliebiger Auflösung. Durch einen 8-schichtigen Residual-Vektorquantisierungs-Prozess erreicht es eine bis zu 28-fache Komprimierung im Pixelraum, während wichtige Details für Aufgaben wie OCR und die Analyse von Finanzdokumenten erhalten bleiben.

Empirische Leistung: Diskrete Modellierung kennt keine inhärenten Grenzen

LongCat-Next liefert eine Leistung, die spezialisierte Modelle in mehreren Benchmarks übertrifft, und stellt damit die traditionelle Vorstellung, dass „Diskretisierung unweigerlich zu Informationsverlust führt“, effektiv in Frage:

Fein abgestimmte Wahrnehmung: Auf dem OmniDocBench für Szenarien mit dichtem Text übertrifft es nicht nur Qwen3-Omni, sondern auch das spezialisierte Bildverarbeitungsmodell Qwen3-VL.

Visuelles Schlussfolgern: Es erzielte beeindruckende 83,1 Punkte bei MathVista und demonstrierte damit robustes, industrietaugliches logisches Schlussfolgern.

Modalitätenübergreifende Zusammenarbeit: Unter Beibehaltung führender Sprachfähigkeiten (C-Eval 86,80) unterstützt es die parallele Generierung von Text und Sprache mit geringer Latenz sowie anpassbares Voice Cloning.

Brancheneinblick: Eine Grundlage für KI in der physischen Welt

Große Sprachmodelle haben sich lange Zeit auf Text konzentriert. Der Durchbruch von LongCat-Next besteht darin, dass es beweist, dass Informationen aus der physischen Welt wie Sprache diskretisiert und modelliert werden können. Wenn eine KI über eine einheitliche „Muttersprache“ verfügt, wird sie intelligenter und intuitiver beim Einsatz von Werkzeugen, beim Schreiben von Code oder beim Interpretieren komplexer Diagramme.

MiTi hat nun das LongCat-Next-Modell und den dNaViT-Tokenizer als Open Source veröffentlicht. Diese effiziente, vielversprechende native diskrete Architektur bietet Entwicklern wesentliche Werkzeuge für den Aufbau von KI, die die reale Welt wahrnehmen und mit ihr interagieren kann.

Verwandter Artikel

Das MIIT bittet die Öffentlichkeit um Rückmeldungen zu 121 Branchenstandards, darunter auch das Protokoll zum Kontext von KI-Modellen. Das chinesische Ministerium für Industrie und Informationstechnologie hat offiziell eine Mitteilung veröffentlicht, in der es die Öffentlichkeit um Rückmeldungen zu 121 Standardisierungsprojekten im Industriebereich bittet, darunter auch die „Anforde

OpenAI arbeitet mit dem US-Verteidigungsministerium zusammen – Die Zahl der Deinstallierungen von ChatGPT steigt um 295 Prozent Öffentliche Empörung: OpenAI’s Militärpartnerschaft löst eine Welle von Abmeldungen ausKürzlich kündigte der führende KI-Anbieter OpenAI eine enge Partnerschaft mit dem US-Verteidigungsministerium an, bei der seine KI-Modelle in hochgeheime militäri

OpenAI führt die „Sites“-Funktion ein und läutet mit den auf Word basierenden Websites das Ende der No-Code-Ära ein OpenAI hat „Sites“ vorgestellt, eine neue Funktion für „Codex“, seine KI für die Softwareentwicklung. Die Funktion befindet sich derzeit in der Vorschauphase und steht nur zahlenden Business- und Ente

Empfehlungen zu verwandten Spezialthemen

Videoerstellung

Die besten KI-Plattformen für die Umwandlung von Text in Video zum Verfassen von Drehbüchern und für visuelles Storytelling

Die besten KI-Plattformen für die Umwandlung von Text in Video im Jahr 2026: Erstklassige Tools für das Verfassen von Drehbüchern und visuelles Storytelling. Entdecken Sie leistungsstarke, bahnbrechende Lösungen, mit denen Sie Ihren Text in fesselnde Videos verwandeln können. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand unserer wöchentlich aktualisierten Ranglisten und Praxistests. Finden Sie die perfekte Plattform, um Ihre Kreativität und Produktivität zu steigern. Entdecken Sie die sorgfältig zusammengestellte Auswahl bei XIX.AI.

10 Tools

xix.ai

Chatbot

KI-Multi-Agent-Orchestratoren: Gestaltung komplexer automatisierter Arbeitsabläufe mithilfe natürlicher Sprache

2026 Neuestes: Entdecken Sie die besten AI-Multi-Agenten-Orchestratoren, um mithilfe natürlicher Sprache komplexe automatisierte Arbeitsabläufe zu gestalten. Unsere sorgfältig ausgewählte Liste enthält hochbewertete, leistungsstarke Plattformen für reibungslose Aufgabenerstellung und intelligente Prozessverwaltung. Vergleichen Sie kostenlose und kostenpflichtige Optionen unter Berücksichtigung praktischer Erfahrungen. Nutzen Sie die wöchentlich aktualisierten Rankings von XIX.AI, um einen Vorsprung durch künstliche Intelligenz zu erlangen.

10 Tools

xix.ai

Bildbearbeitung

Die besten AI-Softwarelösungen zur Geräuschreduzierung: Beseitigen Sie Körnchen und Artefakte in Nachtaufnahmen bei schwachem Licht.

Entdecken Sie die besten KI-basierten Softwarelösungen zur Rauschreduzierung für Nachtfotografie in schwach beleuchteten Umgebungen im Jahr 2026. Unsere hochrangig bewertete, sorgfältig ausgewählte Liste vergleicht kostenlose und kostenpflichtige Tools und enthält Ergebnisse aus realen Tests sowie wöchentlich aktualisierte Ranglisten. Entfernen Sie mühelos Unreinheiten und Artefakte aus Ihren Bildern – eröffnen Sie mit XIX.AI den Vorteil der KI-Technologie für Ihre Fotografie.

10 Tools

xix.ai

Chatbot

Die besten Generatoren für individuelle KI-Freundinnen: Entwirf einzigartige Persönlichkeiten, Hobbys und Hintergrundgeschichten

Entdecken Sie auf XIX.AI die besten Generatoren für individuelle KI-Freundinnen des Jahres 2026. Stöbern Sie in unserer sorgfältig zusammengestellten Liste der besten Angebote, um einzigartige Persönlichkeiten, Hobbys und tiefgründige Hintergrundgeschichten zu entwerfen. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Holen Sie sich noch heute Ihre perfekte kreative Begleiterin.

10 Tools

xix.ai

Produktivität

Entwickler von KI-Architekturen: Erstellen Sie skalierbare Systemarchitekturen mithilfe natürlicher Sprache

Entdecken Sie auf XIX.AI die besten Tools für den Entwurf von KI-Architekturen im Jahr 2026. Unsere sorgfältig zusammengestellte Liste der Top-Bewertungen umfasst leistungsstarke, bahnbrechende Lösungen für die Erstellung skalierbarer Systemarchitekturen mithilfe natürlicher Sprache. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Schöpfen Sie das Potenzial Ihrer KI voll aus und optimieren Sie noch heute Ihre Entwicklungsprozesse.

10 Tools

xix.ai

Comic-Erstellung

AI-Charakterprofiler: Erstellen detaillierte Hintergrundgeschichten und visuelle Referenzen für Manga-Hauptfiguren

2026: Die besten Tools für die Erstellung von AI-Charakterprofilen – Entdecken Sie hochbewertete Werkzeuge, mit denen Sie detaillierte Hintergrundgeschichten und visuelle Referenzen für Ihre Manga-Charaktere erstellen können. Unsere wöchentlich aktualisierte Liste vergleicht kostenlose und kostenpflichtige Optionen anhand tatsächlicher Tests. Finden Sie leistungsstarke Lösungen, die Ihr kreatives Arbeitsfluss optimieren und Ihnen helfen, fesselnde Charaktere zu entwickeln. Erfahren Sie mehr in den Rankings auf XIX.AI und nutzen Sie noch heute Ihren perfekten Helfer für Ihre Geschichtenerzählung.

10 Tools

xix.ai

Kommentare (1)

0/500

Bitte melden Sie sich zuerst an

CharlesHernández

16. Mai 2026 20:00:15 MESZ

Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

Top -Nachrichten

AI Builder und Power Automate Revolutionieren die Dokumentenzusammenfassung KI -Hosts des Notebooklm -Podcasts, das jetzt für Interviews verfügbar ist China stellt nationale Standards für humanoide Roboter und verkörperte Intelligenz vor Ramp-Daten zeigen, dass die Akzeptanz von KI in Unternehmen sinkt Bing Image Creator Tutorial: Anleitung zur KI-Kunstgenerierung Lernen Sie, AI-Musik mit Ihrer Stimme zu erstellen: ein Schritt-für-Schritt-Suno-Tutorial iMyFone MagicMic: Echtzeit-AI-Stimmerveränderer Bewertung und Tutorial Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen Embodied Intelligence stellt ersten Branchenstandard zur Eindämmung unkontrollierten Wachstums vor DeepSeek V4 revolutioniert multimodale KI

Mehr

Vorgestellt