opción
Hogar
Noticias
Meituan presenta el modelo de IA LongCat-Next, con una arquitectura unificada para la visión y el habla

Meituan presenta el modelo de IA LongCat-Next, con una arquitectura unificada para la visión y el habla

12 de abril de 2026
112

Meituan presenta el modelo de IA LongCat-Next, con una arquitectura unificada para la visión y el habla

El 3 de abril, el equipo de MiTi presentó oficialmente LongCat-Next, un modelo multimodal nativo de gran tamaño. Este modelo va más allá del enfoque convencional de «base lingüística más complementos», ya que convierte imágenes, audio y texto en un flujo unificado de tokens discretos. Esto permite a la IA «ver» y «oír» de forma nativa el mundo físico, procesando estas entradas tal y como lo hace con el texto.

Núcleo técnico: la arquitectura DiNA permite la «internalización de modalidades»

Para eliminar las barreras entre los diferentes tipos de datos, MiTi desarrolló la arquitectura DiNA (Discrete Native Autoregressive), logrando una profunda unificación en el modelado multimodal:

Unificación completa de modalidades: el modelo utiliza los mismos parámetros, mecanismos de atención y funciones de pérdida para el texto, las imágenes y el audio.

Simetría entre comprensión y generación: dentro de un único marco matemático, predecir el siguiente token de texto constituye «comprensión», mientras que predecir un token de imagen es «generación». Ambos procesos muestran importantes beneficios sinérgicos durante el entrenamiento.

Compresión extrema: utilizando el tokenizador visual dNaViT, gestiona entradas a cualquier resolución. A través de un proceso de cuantificación vectorial residual de 8 capas, logra una compresión de hasta 28 veces en el espacio de píxeles, al tiempo que conserva detalles críticos para tareas como el OCR y el análisis de documentos financieros.

Rendimiento empírico: el modelado discreto no tiene límites inherentes

LongCat-Next ofrece un rendimiento que supera al de los modelos especializados en múltiples pruebas de referencia, desafiando de manera efectiva la noción tradicional de que «la discretización provoca inevitablemente una pérdida de información»:

Percepción detallada: en el OmniDocBench para escenarios de texto denso, supera no solo a Qwen3-Omni, sino también al modelo de visión especializado Qwen3-VL.

Razonamiento visual: obtuvo una impresionante puntuación de 83,1 en MathVista, lo que demuestra un razonamiento lógico robusto y de nivel industrial.

Colaboración multimodal: al tiempo que mantiene capacidades lingüísticas líderes (C-Eval 86,80), admite la generación paralela de texto y voz con baja latencia, junto con la clonación de voz personalizable.

Perspectiva del sector: una base para la IA del mundo físico

Los grandes modelos de lenguaje se han centrado durante mucho tiempo en el texto. El avance de LongCat-Next es su demostración de que la información del mundo físico puede discretizarse y modelarse como el lenguaje. Cuando una IA posee un «lenguaje nativo» unificado, se vuelve más inteligente e intuitiva al utilizar herramientas, escribir código o interpretar gráficos complejos.

MiTi ha abierto el código fuente del modelo LongCat-Next y del tokenizador dNaViT. Esta arquitectura nativa discreta, eficiente y de gran potencial, proporciona a los desarrolladores herramientas esenciales para crear una IA capaz de percibir e interactuar con el mundo real.

Artículo relacionado
El MIIT busca comentarios del público sobre 121 estándares industriales, incluido el Protocolo de Contexto para Modelos de IA El MIIT busca comentarios del público sobre 121 estándares industriales, incluido el Protocolo de Contexto para Modelos de IA El Ministerio de Industria y Tecnologías de la Información de China ha publicado oficialmente un aviso solicitando comentarios del público sobre 121 proyectos de estandarización industrial, incluido el “Requisitos de seguridad aplicativa para el Prot
OpenAI se asocia con el Departamento de Defensa de los EE. UU.; las eliminaciones de ChatGPT aumentan un 295%. OpenAI se asocia con el Departamento de Defensa de los EE. UU.; las eliminaciones de ChatGPT aumentan un 295%. Indignación Pública: La Alianza Militar de OpenAI Desata una Onda de DesinstalacionesRecientemente, el líder en inteligencia artificial OpenAI anunció una estrecha colaboración con el Departamento de Defensa de los Estados Unidos, integrando sus mod
OpenAI lanza la función «Sites», lo que marca el fin de la era «sin código» con sitios web basados en Word OpenAI lanza la función «Sites», lo que marca el fin de la era «sin código» con sitios web basados en Word OpenAI ha presentado Sites, una nueva función para Codex, su IA dedicada a la ingeniería de software. Actualmente en fase de prueba, solo está disponible para los suscriptores de pago de los planes Bu
Recomendaciones de temas especiales relacionados
Texto a voz Las mejores herramientas de voz con IA para desarrolladores de videojuegos independientes: ahorra tiempo en la grabación de voces para juegos de rol y novelas visuales
Las mejores herramientas de voz con IA para desarrolladores de videojuegos independientes: ahorra tiempo en la grabación de voces para juegos de rol y novelas visuales

¡Descubre las mejores herramientas de voz con IA de 2026 para desarrolladores de videojuegos! La lista seleccionada por XIX.AI incluye soluciones de primera categoría que marcarán un antes y un después, y que te permitirán ahorrar tiempo y dinero en la locución de juegos de rol y novelas visuales. Explora comparativas entre opciones gratuitas y de pago, pruebas en condiciones reales y clasificaciones que se actualizan semanalmente. ¡Encuentra hoy mismo tu herramienta de voz perfecta!

10 herramientas
xix.ai
Educación y aprendizaje Los mejores herramientas de repetición espaciada con IA: optimiza los horarios de estudio para estudiantes de medicina y derecho
Los mejores herramientas de repetición espaciada con IA: optimiza los horarios de estudio para estudiantes de medicina y derecho

Descubra los mejores herramientas de repetición espacial de IA para 2026, seleccionadas por XIX.AI. Nuestras opciones más recomendadas y revolucionarias ayudan a estudiantes de medicina y derecho a optimizar sus horarios de estudio para lograr un mayor retención del conocimiento. Compare las opciones gratuitas con las pagas mediante pruebas reales y clasificaciones actualizadas semanalmente. Despliegue todo su potencial de aprendizaje ahora mismo.

10 herramientas
xix.ai
Creación de vídeos Las mejores plataformas de IA para convertir texto en vídeo, destinadas a la redacción de guiones y la narración visual
Las mejores plataformas de IA para convertir texto en vídeo, destinadas a la redacción de guiones y la narración visual

Las mejores plataformas de IA para convertir texto en vídeo de 2026: las herramientas mejor valoradas para la redacción de guiones y la narración visual. Descubre soluciones potentes y revolucionarias para transformar tu texto en vídeos atractivos. Compara las opciones gratuitas con las de pago gracias a nuestras clasificaciones, que se actualizan semanalmente, y a nuestras pruebas en condiciones reales. Encuentra la plataforma perfecta para potenciar tu creatividad y productividad. Explora la selección cuidada de XIX.AI.

10 herramientas
xix.ai
chatbot Orquestadores de Agentes Multiservidores AI: Diseño de Flujos de Trabajo Automatizados y Complejos a través del Lenguaje Natural
Orquestadores de Agentes Multiservidores AI: Diseño de Flujos de Trabajo Automatizados y Complejos a través del Lenguaje Natural

2026 Últimas novedades: Descubra los mejores herramientas de inteligencia artificial para diseñar flujos de trabajo automatizados complejos a través del lenguaje natural. Nuestra lista seleccionada incluye las plataformas más reconocidas y potentes para una automatización de tareas sin problemas y una gestión inteligente de procesos. Compare opciones gratuitas y pagadas con información basada en casos reales. Despliegue todo su potencial con las clasificaciones actualizadas semanalmente por expertos de XIX.AI.

10 herramientas
xix.ai
Edición de imágenes Mejor software de reducción de ruido por IA: Elimina las imperfecciones y artefactos en fotografías nocturnas con poca luz
Mejor software de reducción de ruido por IA: Elimina las imperfecciones y artefactos en fotografías nocturnas con poca luz

Descubra los mejores softwares de reducción de ruido por IA para la fotografía nocturna en condiciones de poca luz en 2026. Nuestra lista, seleccionada cuidadosamente y evaluada por expertos, compara herramientas gratuitas con aquellas pagadas, e incluye pruebas reales y clasificaciones actualizadas semanalmente. Elimine fácilmente las imperfecciones y los artefactos en sus imágenes. Despliegue todo el potencial de la IA en XIX.AI.

10 herramientas
xix.ai
chatbot Los mejores generadores personalizados de novias con IA: diseña personalidades, aficiones e historias personales únicas
Los mejores generadores personalizados de novias con IA: diseña personalidades, aficiones e historias personales únicas

Descubre los mejores generadores personalizados de novias con IA de 2026 en XIX.AI. Explora nuestra lista seleccionada y mejor valorada para diseñar personalidades únicas, aficiones e historias de fondo detalladas. Compara las opciones gratuitas con las de pago gracias a opiniones reales. Consigue hoy mismo a tu compañera creativa perfecta.

10 herramientas
xix.ai
comentario (1)
0/500
CharlesHernández
CharlesHernández 16 de mayo de 2026 20:00:15 GMT+02:00

Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

OR