option
Maison
Nouvelles
Meituan dévoile son modèle d'IA LongCat-Next, doté d'une architecture unifiée pour la vision et la parole

Meituan dévoile son modèle d'IA LongCat-Next, doté d'une architecture unifiée pour la vision et la parole

12 avril 2026
112

Meituan dévoile son modèle d

Le 3 avril, l'équipe MiTi a officiellement lancé LongCat-Next, un grand modèle multimodal natif. Ce modèle va au-delà de l'approche classique « base linguistique plus plugins » en convertissant les images, l'audio et le texte en un flux unifié de tokens discrets. Cela permet à l'IA de « voir » et d'« entendre » le monde physique de manière native, en traitant ces données de la même manière qu'elle traite le texte.

Cœur technique : l'architecture DiNA permet l'« internalisation des modalités »

Afin d'éliminer les barrières entre les différents types de données, MiTi a développé l'architecture DiNA (Discrete Native Autoregressive), parvenant ainsi à une unification profonde de la modélisation multimodale :

Unification complète des modalités : le modèle utilise les mêmes paramètres, mécanismes d'attention et fonctions de perte pour le texte, les images et l'audio.

Symétrie entre compréhension et génération : au sein d’un cadre mathématique unique, la prédiction du prochain token de texte constitue la « compréhension », tandis que la prédiction d’un token d’image correspond à la « génération ». Ces deux processus présentent des avantages synergiques significatifs pendant l’entraînement.

Compression extrême : grâce au dNaViT Visual Tokenizer, il traite les entrées quelle que soit leur résolution. Grâce à un processus de quantification vectorielle résiduelle à 8 couches, il atteint une compression pouvant aller jusqu’à 28 fois dans l’espace pixel tout en préservant les détails critiques pour des tâches telles que la reconnaissance optique de caractères (OCR) et l’analyse de documents financiers.

Performances empiriques : la modélisation discrète n'a pas de limites intrinsèques

LongCat-Next offre des performances qui surpassent celles des modèles spécialisés sur plusieurs benchmarks, remettant ainsi en cause la notion traditionnelle selon laquelle « la discrétisation entraîne inévitablement une perte d'informations » :

Perception fine : sur l'OmniDocBench pour les scénarios de texte dense, il surpasse non seulement Qwen3-Omni, mais aussi le modèle de vision spécialisé Qwen3-VL.

Raisonnement visuel : il a obtenu un score impressionnant de 83,1 sur MathVista, démontrant un raisonnement logique robuste et de niveau industriel.

Collaboration intermodale : tout en conservant des capacités linguistiques de pointe (C-Eval 86,80), il prend en charge la génération parallèle à faible latence de texte et de parole, ainsi que le clonage vocal personnalisable.

Perspective industrielle : un fondement pour l'IA du monde physique

Les grands modèles linguistiques ont longtemps été centrés sur le texte. La percée de LongCat-Next réside dans la preuve qu'il est possible de discrétiser et de modéliser les informations du monde physique à l'instar du langage. Lorsqu'une IA possède une « langue maternelle » unifiée, elle devient plus intelligente et intuitive pour utiliser des outils, écrire du code ou interpréter des graphiques complexes.

MiTi a désormais mis en open source le modèle LongCat-Next et le tokeniseur dNaViT. Cette architecture native discrète, efficace et à fort potentiel, fournit aux développeurs les outils essentiels pour créer une IA capable de percevoir le monde réel et d'interagir avec lui.

Article connexe
Le MIIT sollicite les avis du public concernant 121 normes industrielles, y compris le protocole de contexte pour les modèles d'intelligence artificielle. Le MIIT sollicite les avis du public concernant 121 normes industrielles, y compris le protocole de contexte pour les modèles d'intelligence artificielle. Le ministère de l’Industrie et de l’Information technologique de la Chine a officiellement publié une annonce demandant aux citoyens de donner leur avis sur 121 projets de normalisation industrielle, y compris les “Exigences en matière de sécurité ap
OpenAI s’allie avec le Département de la Défense des États-Unis ; les installations de ChatGPT augmentent de 295 %. OpenAI s’allie avec le Département de la Défense des États-Unis ; les installations de ChatGPT augmentent de 295 %. Indignation du public : La collaboration militaire d’OpenAI déclenche une vague de désinstallationsRécemment, le leader de l’intelligence artificielle OpenAI a annoncé un partenariat étroit avec le Département de la Défense des États-Unis, intégrant
OpenAI lance la fonctionnalité « Sites », marquant la fin de l'ère du « no-code » avec des sites web créés à partir de texte OpenAI lance la fonctionnalité « Sites », marquant la fin de l'ère du « no-code » avec des sites web créés à partir de texte OpenAI a lancé « Sites », une nouvelle fonctionnalité pour Codex, son outil d'IA dédié à l'ingénierie logicielle. Actuellement en phase de préversion, elle n'est accessible qu'aux abonnés payants des
Recommandations de sujets spéciaux liés
Éducation et apprentissage Meilleurs outils d'entraînement par répétition espacée avec intelligence artificielle : optimisez vos programmes d'études pour les étudiants en médecine et en droit
Meilleurs outils d'entraînement par répétition espacée avec intelligence artificielle : optimisez vos programmes d'études pour les étudiants en médecine et en droit

Découvrez les meilleurs outils d’entraînement par répétition espacée en AI pour 2026, sélectionnés par XIX.AI. Nos choix phares, révolutionnaires dans leur domaine, aident les étudiants en médecine et en droit à optimiser leurs programmes de révision afin d’améliorer leur mémorisation. Comparez les options gratuites et payantes grâce à des tests concrets et aux classements mis à jour chaque semaine. Développez rapidement un avantage dans votre apprentissage.

10 outils
xix.ai
Création vidéo Les meilleures plateformes d'IA de conversion de texte en vidéo pour la rédaction de scénarios et la narration visuelle
Les meilleures plateformes d'IA de conversion de texte en vidéo pour la rédaction de scénarios et la narration visuelle

Les meilleures plateformes d'IA de conversion de texte en vidéo en 2026 : les outils les mieux notés pour la rédaction de scénarios et la narration visuelle. Découvrez des solutions puissantes et révolutionnaires pour transformer votre texte en vidéos captivantes. Comparez les options gratuites et payantes grâce à nos classements mis à jour chaque semaine et à nos tests en conditions réelles. Trouvez la plateforme idéale pour booster votre créativité et votre productivité. Découvrez notre sélection soigneusement choisie sur XIX.AI.

10 outils
xix.ai
chatbot Orchestrateurs multi-agents AI : Concevoir des flux de travail automatisés complexes à l'aide du langage naturel
Orchestrateurs multi-agents AI : Concevoir des flux de travail automatisés complexes à l'aide du langage naturel

Dernières informations de 2026 : Découvrez les meilleurs outils d’orchestration multi-agent basés sur l’intelligence artificielle pour concevoir des workflows automatisés complexes à l’aide du langage naturel. Notre sélection révèle des plateformes reconnues et puissantes, idéales pour une automation des tâches sans faille et une gestion intelligente des processus. Comparez les options gratuites et payantes en vous basant sur des données issues du monde réel. Optimisez vos performances grâce aux classements mis à jour chaque semaine par les experts de XIX.AI.

10 outils
xix.ai
Édition d'images Meilleurs logiciels d'optimisation du bruit par intelligence artificielle : éliminez les grains et les artefacts des photos prises la nuit dans des conditions de faible luminosité.
Meilleurs logiciels d'optimisation du bruit par intelligence artificielle : éliminez les grains et les artefacts des photos prises la nuit dans des conditions de faible luminosité.

Découvrez les meilleurs logiciels de réduction du bruit par intelligence artificielle en 2026 pour la photographie nocturne en faible luminosité. Notre liste sélectionnée compare les outils gratuits et payants, et inclut des tests pratiques ainsi que des classements mis à jour chaque semaine. Éliminez facilement les grains d'image et autres artefacts. Développez votre avantage grâce à l’intelligence artificielle sur XIX.AI.

10 outils
xix.ai
chatbot Les meilleurs générateurs d'IA pour créer une petite amie sur mesure : concevez des personnalités, des loisirs et des histoires personnelles uniques
Les meilleurs générateurs d'IA pour créer une petite amie sur mesure : concevez des personnalités, des loisirs et des histoires personnelles uniques

Découvrez les meilleurs générateurs personnalisés de « copines IA » de 2026 sur XIX.AI. Parcourez notre sélection triée sur le volet et très bien notée pour créer des personnalités, des passe-temps et des histoires personnelles uniques. Comparez les options gratuites et payantes grâce à des avis concrets. Trouvez dès aujourd'hui votre compagnon créatif idéal.

10 outils
xix.ai
Productivité Concepteurs d'architectures IA : concevez des architectures système évolutives à l'aide du langage naturel
Concepteurs d'architectures IA : concevez des architectures système évolutives à l'aide du langage naturel

Découvrez les meilleurs outils de conception d'architectures d'IA de 2026 sur XIX.AI. Notre sélection des outils les mieux notés propose des solutions puissantes et révolutionnaires pour créer des architectures système évolutives à l'aide du langage naturel. Comparez les options gratuites et payantes grâce à des avis concrets. Tirez pleinement parti de votre avantage en matière d'IA et optimisez votre développement dès aujourd'hui.

10 outils
xix.ai
commentaires (1)
0/500
CharlesHernández
CharlesHernández 16 mai 2026 20:00:15 UTC+02:00

Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

OR