Дом
Meituan представляет модель искусственного интеллекта LongCat-Next с унифицированной архитектурой для обработки изображений и речи

3 апреля команда MiTi официально представила собственную мультимодальную крупномасштабную модель LongCat-Next. Эта модель выходит за рамки традиционного подхода «языковая основа плюс плагины», преобразуя изображения, аудио и текст в единый поток дискретных токенов. Это позволяет ИИ «видеть» и «слышать» физический мир нативно, обрабатывая эти входные данные точно так же, как и текст.
Техническое ядро: архитектура DiNA обеспечивает «интернализацию модальности»
Чтобы устранить барьеры между различными типами данных, MiTi разработала архитектуру DiNA (Discrete Native Autoregressive), достигнув глубокого объединения в мультимодальном моделировании:
Полное объединение модальностей: модель использует одни и те же параметры, механизмы внимания и функции потерь для текста, изображений и аудио.
Симметрия понимания и генерации: в рамках единой математической структуры предсказание следующего текстового токена представляет собой «понимание», а предсказание токена изображения — «генерацию». Оба процесса демонстрируют значительные синергетические преимущества во время обучения.
Экстремальное сжатие: благодаря использованию визуального токенизатора dNaViT система обрабатывает входные данные с любым разрешением. Благодаря 8-слойному процессу остаточной векторной квантификации достигается сжатие до 28 раз в пиксельном пространстве при сохранении важных деталей для таких задач, как OCR и анализ финансовых документов.
Эмпирическая производительность: дискретное моделирование не имеет внутренних ограничений
LongCat-Next демонстрирует производительность, превосходящую специализированные модели по многим тестам, эффективно опровергая традиционное представление о том, что «дискретизация неизбежно приводит к потере информации»:
Тонкое восприятие: в тесте OmniDocBench для сценариев с плотным текстом он превосходит не только Qwen3-Omni, но и специализированную модель для обработки изображений Qwen3-VL.
Визуальное мышление: модель набрала впечатляющие 83,1 балла в тесте MathVista, продемонстрировав надежное логическое мышление промышленного уровня.
Межмодальное взаимодействие: сохраняя лидирующие языковые возможности (C-Eval 86,80), система поддерживает параллельное генерирование текста и речи с низкой задержкой, а также настраиваемое клонирование голоса.
Взгляд на отрасль: основа для ИИ в реальном мире
Крупные языковые модели долгое время были сосредоточены на тексте. Прорыв LongCat-Next заключается в том, что он доказал: информацию о физическом мире можно дискретизировать и моделировать так же, как язык. Когда ИИ обладает единым «родным языком», он становится более умным и интуитивным при использовании инструментов, написании кода или интерпретации сложных диаграмм.
MiTi теперь открыла исходный код модели LongCat-Next и токенизатора dNaViT. Эта эффективная и перспективная нативная дискретная архитектура предоставляет разработчикам необходимые инструменты для создания ИИ, способного воспринимать реальный мир и взаимодействовать с ним.
Связанная статья
МИИТ просит общественность дать отзывы по 121 отраслевому стандарту, включая Протокол контекста моделей искусственного интеллекта
Министерство промышленности и информационных технологий Китая официально опубликовало уведомление с призывом к общественным отзывам по 121 проекту в области стандартизации промышленности, включая «Требования к безопасности приложений в контексте моде
OpenAI сотрудничает с Министерством обороны США; количество случаев деинсталляции ChatGPT увеличилось на 295%.
Общественный гнев: Военное сотрудничество OpenAI вызывает волну отзывов о необходимости удаления приложенияНедавно ведущая компания в области искусственного интеллекта OpenAI объявила о тесном сотрудничестве с Министерством обороны США, предусматрив
OpenAI запускает функцию «Сайты», положив конец эре «безкодового» программирования благодаря веб-сайтам на базе Word
Компания OpenAI представила Sites — новую функцию для Codex, своего ИИ-решения для разработки программного обеспечения. В настоящее время функция находится в стадии предварительного доступа и доступна
Рекомендации по связанным специальным темам
Комментарии (1)
Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

3 апреля команда MiTi официально представила собственную мультимодальную крупномасштабную модель LongCat-Next. Эта модель выходит за рамки традиционного подхода «языковая основа плюс плагины», преобразуя изображения, аудио и текст в единый поток дискретных токенов. Это позволяет ИИ «видеть» и «слышать» физический мир нативно, обрабатывая эти входные данные точно так же, как и текст.
Техническое ядро: архитектура DiNA обеспечивает «интернализацию модальности»
Чтобы устранить барьеры между различными типами данных, MiTi разработала архитектуру DiNA (Discrete Native Autoregressive), достигнув глубокого объединения в мультимодальном моделировании:
Полное объединение модальностей: модель использует одни и те же параметры, механизмы внимания и функции потерь для текста, изображений и аудио.
Симметрия понимания и генерации: в рамках единой математической структуры предсказание следующего текстового токена представляет собой «понимание», а предсказание токена изображения — «генерацию». Оба процесса демонстрируют значительные синергетические преимущества во время обучения.
Экстремальное сжатие: благодаря использованию визуального токенизатора dNaViT система обрабатывает входные данные с любым разрешением. Благодаря 8-слойному процессу остаточной векторной квантификации достигается сжатие до 28 раз в пиксельном пространстве при сохранении важных деталей для таких задач, как OCR и анализ финансовых документов.
Эмпирическая производительность: дискретное моделирование не имеет внутренних ограничений
LongCat-Next демонстрирует производительность, превосходящую специализированные модели по многим тестам, эффективно опровергая традиционное представление о том, что «дискретизация неизбежно приводит к потере информации»:
Тонкое восприятие: в тесте OmniDocBench для сценариев с плотным текстом он превосходит не только Qwen3-Omni, но и специализированную модель для обработки изображений Qwen3-VL.
Визуальное мышление: модель набрала впечатляющие 83,1 балла в тесте MathVista, продемонстрировав надежное логическое мышление промышленного уровня.
Межмодальное взаимодействие: сохраняя лидирующие языковые возможности (C-Eval 86,80), система поддерживает параллельное генерирование текста и речи с низкой задержкой, а также настраиваемое клонирование голоса.
Взгляд на отрасль: основа для ИИ в реальном мире
Крупные языковые модели долгое время были сосредоточены на тексте. Прорыв LongCat-Next заключается в том, что он доказал: информацию о физическом мире можно дискретизировать и моделировать так же, как язык. Когда ИИ обладает единым «родным языком», он становится более умным и интуитивным при использовании инструментов, написании кода или интерпретации сложных диаграмм.
MiTi теперь открыла исходный код модели LongCat-Next и токенизатора dNaViT. Эта эффективная и перспективная нативная дискретная архитектура предоставляет разработчикам необходимые инструменты для создания ИИ, способного воспринимать реальный мир и взаимодействовать с ним.
МИИТ просит общественность дать отзывы по 121 отраслевому стандарту, включая Протокол контекста моделей искусственного интеллекта
Министерство промышленности и информационных технологий Китая официально опубликовало уведомление с призывом к общественным отзывам по 121 проекту в области стандартизации промышленности, включая «Требования к безопасности приложений в контексте моде
OpenAI сотрудничает с Министерством обороны США; количество случаев деинсталляции ChatGPT увеличилось на 295%.
Общественный гнев: Военное сотрудничество OpenAI вызывает волну отзывов о необходимости удаления приложенияНедавно ведущая компания в области искусственного интеллекта OpenAI объявила о тесном сотрудничестве с Министерством обороны США, предусматрив
OpenAI запускает функцию «Сайты», положив конец эре «безкодового» программирования благодаря веб-сайтам на базе Word
Компания OpenAI представила Sites — новую функцию для Codex, своего ИИ-решения для разработки программного обеспечения. В настоящее время функция находится в стадии предварительного доступа и доступна
Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐











