вариант
Дом
Новости
Meituan представляет модель искусственного интеллекта LongCat-Next с унифицированной архитектурой для обработки изображений и речи

Meituan представляет модель искусственного интеллекта LongCat-Next с унифицированной архитектурой для обработки изображений и речи

12 апреля 2026 г.
112

Meituan представляет модель искусственного интеллекта LongCat-Next с унифицированной архитектурой для обработки изображений и речи

3 апреля команда MiTi официально представила собственную мультимодальную крупномасштабную модель LongCat-Next. Эта модель выходит за рамки традиционного подхода «языковая основа плюс плагины», преобразуя изображения, аудио и текст в единый поток дискретных токенов. Это позволяет ИИ «видеть» и «слышать» физический мир нативно, обрабатывая эти входные данные точно так же, как и текст.

Техническое ядро: архитектура DiNA обеспечивает «интернализацию модальности»

Чтобы устранить барьеры между различными типами данных, MiTi разработала архитектуру DiNA (Discrete Native Autoregressive), достигнув глубокого объединения в мультимодальном моделировании:

Полное объединение модальностей: модель использует одни и те же параметры, механизмы внимания и функции потерь для текста, изображений и аудио.

Симметрия понимания и генерации: в рамках единой математической структуры предсказание следующего текстового токена представляет собой «понимание», а предсказание токена изображения — «генерацию». Оба процесса демонстрируют значительные синергетические преимущества во время обучения.

Экстремальное сжатие: благодаря использованию визуального токенизатора dNaViT система обрабатывает входные данные с любым разрешением. Благодаря 8-слойному процессу остаточной векторной квантификации достигается сжатие до 28 раз в пиксельном пространстве при сохранении важных деталей для таких задач, как OCR и анализ финансовых документов.

Эмпирическая производительность: дискретное моделирование не имеет внутренних ограничений

LongCat-Next демонстрирует производительность, превосходящую специализированные модели по многим тестам, эффективно опровергая традиционное представление о том, что «дискретизация неизбежно приводит к потере информации»:

Тонкое восприятие: в тесте OmniDocBench для сценариев с плотным текстом он превосходит не только Qwen3-Omni, но и специализированную модель для обработки изображений Qwen3-VL.

Визуальное мышление: модель набрала впечатляющие 83,1 балла в тесте MathVista, продемонстрировав надежное логическое мышление промышленного уровня.

Межмодальное взаимодействие: сохраняя лидирующие языковые возможности (C-Eval 86,80), система поддерживает параллельное генерирование текста и речи с низкой задержкой, а также настраиваемое клонирование голоса.

Взгляд на отрасль: основа для ИИ в реальном мире

Крупные языковые модели долгое время были сосредоточены на тексте. Прорыв LongCat-Next заключается в том, что он доказал: информацию о физическом мире можно дискретизировать и моделировать так же, как язык. Когда ИИ обладает единым «родным языком», он становится более умным и интуитивным при использовании инструментов, написании кода или интерпретации сложных диаграмм.

MiTi теперь открыла исходный код модели LongCat-Next и токенизатора dNaViT. Эта эффективная и перспективная нативная дискретная архитектура предоставляет разработчикам необходимые инструменты для создания ИИ, способного воспринимать реальный мир и взаимодействовать с ним.

Связанная статья
МИИТ просит общественность дать отзывы по 121 отраслевому стандарту, включая Протокол контекста моделей искусственного интеллекта МИИТ просит общественность дать отзывы по 121 отраслевому стандарту, включая Протокол контекста моделей искусственного интеллекта Министерство промышленности и информационных технологий Китая официально опубликовало уведомление с призывом к общественным отзывам по 121 проекту в области стандартизации промышленности, включая «Требования к безопасности приложений в контексте моде
OpenAI сотрудничает с Министерством обороны США; количество случаев деинсталляции ChatGPT увеличилось на 295%. OpenAI сотрудничает с Министерством обороны США; количество случаев деинсталляции ChatGPT увеличилось на 295%. Общественный гнев: Военное сотрудничество OpenAI вызывает волну отзывов о необходимости удаления приложенияНедавно ведущая компания в области искусственного интеллекта OpenAI объявила о тесном сотрудничестве с Министерством обороны США, предусматрив
OpenAI запускает функцию «Сайты», положив конец эре «безкодового» программирования благодаря веб-сайтам на базе Word OpenAI запускает функцию «Сайты», положив конец эре «безкодового» программирования благодаря веб-сайтам на базе Word Компания OpenAI представила Sites — новую функцию для Codex, своего ИИ-решения для разработки программного обеспечения. В настоящее время функция находится в стадии предварительного доступа и доступна
Рекомендации по связанным специальным темам
Образование и обучение Лучшие инструменты искусственного интеллекта для систематического повторения материала: оптимизация учебных планов студентов-медиков и юристов
Лучшие инструменты искусственного интеллекта для систематического повторения материала: оптимизация учебных планов студентов-медиков и юристов

Откройте для себя лучшие инструменты для повторения материала с использованием технологий искусственного интеллекта в 2026 году, подобранные компанией XIX.AI. Наши самые популярные и революционные инструменты помогут студентам-медикам и юристам оптимизировать расписание занятий для лучшего запоминания информации. Сравните бесплатные и платные варианты с использованием реальных примеров и еженедельно обновляемых рейтингов. Раскройте для себя все возможности эффективного обучения уже сегодня.

10 инструментов
xix.ai
Создание видео Лучшие платформы для преобразования текста в видео с помощью ИИ для написания сценариев и визуального повествования
Лучшие платформы для преобразования текста в видео с помощью ИИ для написания сценариев и визуального повествования

2026: лучшие платформы для преобразования текста в видео с помощью ИИ: самые популярные инструменты для написания сценариев и визуального повествования. Откройте для себя мощные, революционные решения, которые помогут превратить ваш текст в увлекательные видеоролики. Сравните бесплатные и платные варианты с помощью наших еженедельно обновляемых рейтингов и реальных тестов. Найдите идеальную платформу, которая поможет вам раскрыть свой творческий потенциал и повысить продуктивность. Ознакомьтесь с тщательно подобранной подборкой на сайте XIX.AI.

10 инструментов
xix.ai
чат-бот АИ-оркестраторы множественных агентов: создание сложных автоматизированных рабочих процессов с использованием естественного языка
АИ-оркестраторы множественных агентов: создание сложных автоматизированных рабочих процессов с использованием естественного языка

2026 Год: Откройте для себя лучшие инструменты на основе искусственного интеллекта, предназначенные для создания сложных автоматизированных рабочих процессов с использованием естественного языка. Наш отобранный список включает наиболее популярные и мощные платформы, обеспечивающие бесшовную автоматизацию задач и интеллектуальное управление процессами. Сравните бесплатные и платные варианты с примерами реального использования. Получите преимущества, предоставляемые технологиями искусственного интеллекта, благодаря еженедельно обновляемым рейтингам от XIX.AI.

10 инструментов
xix.ai
Редактирование изображений Лучшее программное обеспечение для снижения шума на основе искусственного интеллекта: устранение зерна и артефактов на снимках, сделанных в условиях слабого освещения ночью
Лучшее программное обеспечение для снижения шума на основе искусственного интеллекта: устранение зерна и артефактов на снимках, сделанных в условиях слабого освещения ночью

Откройте для себя лучшие программы по уменьшению шума на основе искусственного интеллекта в 2026 году, предназначенные для фотографии в условиях слабого освещения ночью. Наш список, составленный специально для вас, сравнивает бесплатные и платные инструменты, включает результаты реальных тестов и еженедельно обновляемые рейтинги. Избавьтесь от шума и других нежелательных эффектов без особых усилий. Откройте для себя преимущества искусственного интеллекта в сервисе XIX.AI.

10 инструментов
xix.ai
чат-бот Лучшие генераторы индивидуальных ИИ-подруг: создавайте уникальные характеры, увлечения и истории
Лучшие генераторы индивидуальных ИИ-подруг: создавайте уникальные характеры, увлечения и истории

Откройте для себя 2026 лучших генераторов индивидуальных ИИ-подруг на сайте XIX.AI. Ознакомьтесь с нашим тщательно отобранным списком самых популярных сервисов, которые помогут вам создать уникальные личности, увлечения и глубокие предыстории. Сравните бесплатные и платные варианты с помощью реальных отзывов. Найдите своего идеального творческого спутника уже сегодня.

10 инструментов
xix.ai
Производительность Разработчики архитектуры ИИ: создание масштабируемых системных архитектур с использованием естественного языка
Разработчики архитектуры ИИ: создание масштабируемых системных архитектур с использованием естественного языка

Откройте для себя лучшие инструменты для проектирования архитектуры ИИ 2026 года на сайте XIX.AI. В нашем тщательно отобранном списке лидеров представлены мощные, революционные решения для создания масштабируемых системных архитектур с помощью естественного языка. Сравните бесплатные и платные варианты, опираясь на реальные отзывы. Раскройте свой потенциал в сфере ИИ и оптимизируйте процесс разработки уже сегодня.

10 инструментов
xix.ai
Комментарии (1)
0/500
CharlesHernández
CharlesHernández 16 мая 2026 г., 21:00:15 GMT+03:00

Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

OR