Maison
Meituan dévoile son modèle d'IA LongCat-Next, doté d'une architecture unifiée pour la vision et la parole

Le 3 avril, l'équipe MiTi a officiellement lancé LongCat-Next, un grand modèle multimodal natif. Ce modèle va au-delà de l'approche classique « base linguistique plus plugins » en convertissant les images, l'audio et le texte en un flux unifié de tokens discrets. Cela permet à l'IA de « voir » et d'« entendre » le monde physique de manière native, en traitant ces données de la même manière qu'elle traite le texte.
Cœur technique : l'architecture DiNA permet l'« internalisation des modalités »
Afin d'éliminer les barrières entre les différents types de données, MiTi a développé l'architecture DiNA (Discrete Native Autoregressive), parvenant ainsi à une unification profonde de la modélisation multimodale :
Unification complète des modalités : le modèle utilise les mêmes paramètres, mécanismes d'attention et fonctions de perte pour le texte, les images et l'audio.
Symétrie entre compréhension et génération : au sein d’un cadre mathématique unique, la prédiction du prochain token de texte constitue la « compréhension », tandis que la prédiction d’un token d’image correspond à la « génération ». Ces deux processus présentent des avantages synergiques significatifs pendant l’entraînement.
Compression extrême : grâce au dNaViT Visual Tokenizer, il traite les entrées quelle que soit leur résolution. Grâce à un processus de quantification vectorielle résiduelle à 8 couches, il atteint une compression pouvant aller jusqu’à 28 fois dans l’espace pixel tout en préservant les détails critiques pour des tâches telles que la reconnaissance optique de caractères (OCR) et l’analyse de documents financiers.
Performances empiriques : la modélisation discrète n'a pas de limites intrinsèques
LongCat-Next offre des performances qui surpassent celles des modèles spécialisés sur plusieurs benchmarks, remettant ainsi en cause la notion traditionnelle selon laquelle « la discrétisation entraîne inévitablement une perte d'informations » :
Perception fine : sur l'OmniDocBench pour les scénarios de texte dense, il surpasse non seulement Qwen3-Omni, mais aussi le modèle de vision spécialisé Qwen3-VL.
Raisonnement visuel : il a obtenu un score impressionnant de 83,1 sur MathVista, démontrant un raisonnement logique robuste et de niveau industriel.
Collaboration intermodale : tout en conservant des capacités linguistiques de pointe (C-Eval 86,80), il prend en charge la génération parallèle à faible latence de texte et de parole, ainsi que le clonage vocal personnalisable.
Perspective industrielle : un fondement pour l'IA du monde physique
Les grands modèles linguistiques ont longtemps été centrés sur le texte. La percée de LongCat-Next réside dans la preuve qu'il est possible de discrétiser et de modéliser les informations du monde physique à l'instar du langage. Lorsqu'une IA possède une « langue maternelle » unifiée, elle devient plus intelligente et intuitive pour utiliser des outils, écrire du code ou interpréter des graphiques complexes.
MiTi a désormais mis en open source le modèle LongCat-Next et le tokeniseur dNaViT. Cette architecture native discrète, efficace et à fort potentiel, fournit aux développeurs les outils essentiels pour créer une IA capable de percevoir le monde réel et d'interagir avec lui.
Article connexe
Le MIIT sollicite les avis du public concernant 121 normes industrielles, y compris le protocole de contexte pour les modèles d'intelligence artificielle.
Le ministère de l’Industrie et de l’Information technologique de la Chine a officiellement publié une annonce demandant aux citoyens de donner leur avis sur 121 projets de normalisation industrielle, y compris les “Exigences en matière de sécurité ap
OpenAI s’allie avec le Département de la Défense des États-Unis ; les installations de ChatGPT augmentent de 295 %.
Indignation du public : La collaboration militaire d’OpenAI déclenche une vague de désinstallationsRécemment, le leader de l’intelligence artificielle OpenAI a annoncé un partenariat étroit avec le Département de la Défense des États-Unis, intégrant
OpenAI lance la fonctionnalité « Sites », marquant la fin de l'ère du « no-code » avec des sites web créés à partir de texte
OpenAI a lancé « Sites », une nouvelle fonctionnalité pour Codex, son outil d'IA dédié à l'ingénierie logicielle. Actuellement en phase de préversion, elle n'est accessible qu'aux abonnés payants des
Recommandations de sujets spéciaux liés
commentaires (1)
Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

Le 3 avril, l'équipe MiTi a officiellement lancé LongCat-Next, un grand modèle multimodal natif. Ce modèle va au-delà de l'approche classique « base linguistique plus plugins » en convertissant les images, l'audio et le texte en un flux unifié de tokens discrets. Cela permet à l'IA de « voir » et d'« entendre » le monde physique de manière native, en traitant ces données de la même manière qu'elle traite le texte.
Cœur technique : l'architecture DiNA permet l'« internalisation des modalités »
Afin d'éliminer les barrières entre les différents types de données, MiTi a développé l'architecture DiNA (Discrete Native Autoregressive), parvenant ainsi à une unification profonde de la modélisation multimodale :
Unification complète des modalités : le modèle utilise les mêmes paramètres, mécanismes d'attention et fonctions de perte pour le texte, les images et l'audio.
Symétrie entre compréhension et génération : au sein d’un cadre mathématique unique, la prédiction du prochain token de texte constitue la « compréhension », tandis que la prédiction d’un token d’image correspond à la « génération ». Ces deux processus présentent des avantages synergiques significatifs pendant l’entraînement.
Compression extrême : grâce au dNaViT Visual Tokenizer, il traite les entrées quelle que soit leur résolution. Grâce à un processus de quantification vectorielle résiduelle à 8 couches, il atteint une compression pouvant aller jusqu’à 28 fois dans l’espace pixel tout en préservant les détails critiques pour des tâches telles que la reconnaissance optique de caractères (OCR) et l’analyse de documents financiers.
Performances empiriques : la modélisation discrète n'a pas de limites intrinsèques
LongCat-Next offre des performances qui surpassent celles des modèles spécialisés sur plusieurs benchmarks, remettant ainsi en cause la notion traditionnelle selon laquelle « la discrétisation entraîne inévitablement une perte d'informations » :
Perception fine : sur l'OmniDocBench pour les scénarios de texte dense, il surpasse non seulement Qwen3-Omni, mais aussi le modèle de vision spécialisé Qwen3-VL.
Raisonnement visuel : il a obtenu un score impressionnant de 83,1 sur MathVista, démontrant un raisonnement logique robuste et de niveau industriel.
Collaboration intermodale : tout en conservant des capacités linguistiques de pointe (C-Eval 86,80), il prend en charge la génération parallèle à faible latence de texte et de parole, ainsi que le clonage vocal personnalisable.
Perspective industrielle : un fondement pour l'IA du monde physique
Les grands modèles linguistiques ont longtemps été centrés sur le texte. La percée de LongCat-Next réside dans la preuve qu'il est possible de discrétiser et de modéliser les informations du monde physique à l'instar du langage. Lorsqu'une IA possède une « langue maternelle » unifiée, elle devient plus intelligente et intuitive pour utiliser des outils, écrire du code ou interpréter des graphiques complexes.
MiTi a désormais mis en open source le modèle LongCat-Next et le tokeniseur dNaViT. Cette architecture native discrète, efficace et à fort potentiel, fournit aux développeurs les outils essentiels pour créer une IA capable de percevoir le monde réel et d'interagir avec lui.
Le MIIT sollicite les avis du public concernant 121 normes industrielles, y compris le protocole de contexte pour les modèles d'intelligence artificielle.
Le ministère de l’Industrie et de l’Information technologique de la Chine a officiellement publié une annonce demandant aux citoyens de donner leur avis sur 121 projets de normalisation industrielle, y compris les “Exigences en matière de sécurité ap
OpenAI s’allie avec le Département de la Défense des États-Unis ; les installations de ChatGPT augmentent de 295 %.
Indignation du public : La collaboration militaire d’OpenAI déclenche une vague de désinstallationsRécemment, le leader de l’intelligence artificielle OpenAI a annoncé un partenariat étroit avec le Département de la Défense des États-Unis, intégrant
OpenAI lance la fonctionnalité « Sites », marquant la fin de l'ère du « no-code » avec des sites web créés à partir de texte
OpenAI a lancé « Sites », une nouvelle fonctionnalité pour Codex, son outil d'IA dédié à l'ingénierie logicielle. Actuellement en phase de préversion, elle n'est accessible qu'aux abonnés payants des
Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐











