Hogar
Meituan presenta el modelo de IA LongCat-Next, con una arquitectura unificada para la visión y el habla

El 3 de abril, el equipo de MiTi presentó oficialmente LongCat-Next, un modelo multimodal nativo de gran tamaño. Este modelo va más allá del enfoque convencional de «base lingüística más complementos», ya que convierte imágenes, audio y texto en un flujo unificado de tokens discretos. Esto permite a la IA «ver» y «oír» de forma nativa el mundo físico, procesando estas entradas tal y como lo hace con el texto.
Núcleo técnico: la arquitectura DiNA permite la «internalización de modalidades»
Para eliminar las barreras entre los diferentes tipos de datos, MiTi desarrolló la arquitectura DiNA (Discrete Native Autoregressive), logrando una profunda unificación en el modelado multimodal:
Unificación completa de modalidades: el modelo utiliza los mismos parámetros, mecanismos de atención y funciones de pérdida para el texto, las imágenes y el audio.
Simetría entre comprensión y generación: dentro de un único marco matemático, predecir el siguiente token de texto constituye «comprensión», mientras que predecir un token de imagen es «generación». Ambos procesos muestran importantes beneficios sinérgicos durante el entrenamiento.
Compresión extrema: utilizando el tokenizador visual dNaViT, gestiona entradas a cualquier resolución. A través de un proceso de cuantificación vectorial residual de 8 capas, logra una compresión de hasta 28 veces en el espacio de píxeles, al tiempo que conserva detalles críticos para tareas como el OCR y el análisis de documentos financieros.
Rendimiento empírico: el modelado discreto no tiene límites inherentes
LongCat-Next ofrece un rendimiento que supera al de los modelos especializados en múltiples pruebas de referencia, desafiando de manera efectiva la noción tradicional de que «la discretización provoca inevitablemente una pérdida de información»:
Percepción detallada: en el OmniDocBench para escenarios de texto denso, supera no solo a Qwen3-Omni, sino también al modelo de visión especializado Qwen3-VL.
Razonamiento visual: obtuvo una impresionante puntuación de 83,1 en MathVista, lo que demuestra un razonamiento lógico robusto y de nivel industrial.
Colaboración multimodal: al tiempo que mantiene capacidades lingüísticas líderes (C-Eval 86,80), admite la generación paralela de texto y voz con baja latencia, junto con la clonación de voz personalizable.
Perspectiva del sector: una base para la IA del mundo físico
Los grandes modelos de lenguaje se han centrado durante mucho tiempo en el texto. El avance de LongCat-Next es su demostración de que la información del mundo físico puede discretizarse y modelarse como el lenguaje. Cuando una IA posee un «lenguaje nativo» unificado, se vuelve más inteligente e intuitiva al utilizar herramientas, escribir código o interpretar gráficos complejos.
MiTi ha abierto el código fuente del modelo LongCat-Next y del tokenizador dNaViT. Esta arquitectura nativa discreta, eficiente y de gran potencial, proporciona a los desarrolladores herramientas esenciales para crear una IA capaz de percibir e interactuar con el mundo real.
Artículo relacionado
El MIIT busca comentarios del público sobre 121 estándares industriales, incluido el Protocolo de Contexto para Modelos de IA
El Ministerio de Industria y Tecnologías de la Información de China ha publicado oficialmente un aviso solicitando comentarios del público sobre 121 proyectos de estandarización industrial, incluido el “Requisitos de seguridad aplicativa para el Prot
OpenAI se asocia con el Departamento de Defensa de los EE. UU.; las eliminaciones de ChatGPT aumentan un 295%.
Indignación Pública: La Alianza Militar de OpenAI Desata una Onda de DesinstalacionesRecientemente, el líder en inteligencia artificial OpenAI anunció una estrecha colaboración con el Departamento de Defensa de los Estados Unidos, integrando sus mod
OpenAI lanza la función «Sites», lo que marca el fin de la era «sin código» con sitios web basados en Word
OpenAI ha presentado Sites, una nueva función para Codex, su IA dedicada a la ingeniería de software. Actualmente en fase de prueba, solo está disponible para los suscriptores de pago de los planes Bu
Recomendaciones de temas especiales relacionados
comentario (1)
0/500
Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

El 3 de abril, el equipo de MiTi presentó oficialmente LongCat-Next, un modelo multimodal nativo de gran tamaño. Este modelo va más allá del enfoque convencional de «base lingüística más complementos», ya que convierte imágenes, audio y texto en un flujo unificado de tokens discretos. Esto permite a la IA «ver» y «oír» de forma nativa el mundo físico, procesando estas entradas tal y como lo hace con el texto.
Núcleo técnico: la arquitectura DiNA permite la «internalización de modalidades»
Para eliminar las barreras entre los diferentes tipos de datos, MiTi desarrolló la arquitectura DiNA (Discrete Native Autoregressive), logrando una profunda unificación en el modelado multimodal:
Unificación completa de modalidades: el modelo utiliza los mismos parámetros, mecanismos de atención y funciones de pérdida para el texto, las imágenes y el audio.
Simetría entre comprensión y generación: dentro de un único marco matemático, predecir el siguiente token de texto constituye «comprensión», mientras que predecir un token de imagen es «generación». Ambos procesos muestran importantes beneficios sinérgicos durante el entrenamiento.
Compresión extrema: utilizando el tokenizador visual dNaViT, gestiona entradas a cualquier resolución. A través de un proceso de cuantificación vectorial residual de 8 capas, logra una compresión de hasta 28 veces en el espacio de píxeles, al tiempo que conserva detalles críticos para tareas como el OCR y el análisis de documentos financieros.
Rendimiento empírico: el modelado discreto no tiene límites inherentes
LongCat-Next ofrece un rendimiento que supera al de los modelos especializados en múltiples pruebas de referencia, desafiando de manera efectiva la noción tradicional de que «la discretización provoca inevitablemente una pérdida de información»:
Percepción detallada: en el OmniDocBench para escenarios de texto denso, supera no solo a Qwen3-Omni, sino también al modelo de visión especializado Qwen3-VL.
Razonamiento visual: obtuvo una impresionante puntuación de 83,1 en MathVista, lo que demuestra un razonamiento lógico robusto y de nivel industrial.
Colaboración multimodal: al tiempo que mantiene capacidades lingüísticas líderes (C-Eval 86,80), admite la generación paralela de texto y voz con baja latencia, junto con la clonación de voz personalizable.
Perspectiva del sector: una base para la IA del mundo físico
Los grandes modelos de lenguaje se han centrado durante mucho tiempo en el texto. El avance de LongCat-Next es su demostración de que la información del mundo físico puede discretizarse y modelarse como el lenguaje. Cuando una IA posee un «lenguaje nativo» unificado, se vuelve más inteligente e intuitiva al utilizar herramientas, escribir código o interpretar gráficos complejos.
MiTi ha abierto el código fuente del modelo LongCat-Next y del tokenizador dNaViT. Esta arquitectura nativa discreta, eficiente y de gran potencial, proporciona a los desarrolladores herramientas esenciales para crear una IA capaz de percibir e interactuar con el mundo real.
El MIIT busca comentarios del público sobre 121 estándares industriales, incluido el Protocolo de Contexto para Modelos de IA
El Ministerio de Industria y Tecnologías de la Información de China ha publicado oficialmente un aviso solicitando comentarios del público sobre 121 proyectos de estandarización industrial, incluido el “Requisitos de seguridad aplicativa para el Prot
OpenAI se asocia con el Departamento de Defensa de los EE. UU.; las eliminaciones de ChatGPT aumentan un 295%.
Indignación Pública: La Alianza Militar de OpenAI Desata una Onda de DesinstalacionesRecientemente, el líder en inteligencia artificial OpenAI anunció una estrecha colaboración con el Departamento de Defensa de los Estados Unidos, integrando sus mod
OpenAI lanza la función «Sites», lo que marca el fin de la era «sin código» con sitios web basados en Word
OpenAI ha presentado Sites, una nueva función para Codex, su IA dedicada a la ingeniería de software. Actualmente en fase de prueba, solo está disponible para los suscriptores de pago de los planes Bu
Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐











