Дом

Новости

Meituan представляет модель искусственного интеллекта LongCat-Next с унифицированной архитектурой для обработки изображений и речи

Meituan представляет модель искусственного интеллекта LongCat-Next с унифицированной архитектурой для обработки изображений и речи

12 апреля 2026 г.

StephenMiller

112

3 апреля команда MiTi официально представила собственную мультимодальную крупномасштабную модель LongCat-Next. Эта модель выходит за рамки традиционного подхода «языковая основа плюс плагины», преобразуя изображения, аудио и текст в единый поток дискретных токенов. Это позволяет ИИ «видеть» и «слышать» физический мир нативно, обрабатывая эти входные данные точно так же, как и текст.

Техническое ядро: архитектура DiNA обеспечивает «интернализацию модальности»

Чтобы устранить барьеры между различными типами данных, MiTi разработала архитектуру DiNA (Discrete Native Autoregressive), достигнув глубокого объединения в мультимодальном моделировании:

Полное объединение модальностей: модель использует одни и те же параметры, механизмы внимания и функции потерь для текста, изображений и аудио.

Симметрия понимания и генерации: в рамках единой математической структуры предсказание следующего текстового токена представляет собой «понимание», а предсказание токена изображения — «генерацию». Оба процесса демонстрируют значительные синергетические преимущества во время обучения.

Экстремальное сжатие: благодаря использованию визуального токенизатора dNaViT система обрабатывает входные данные с любым разрешением. Благодаря 8-слойному процессу остаточной векторной квантификации достигается сжатие до 28 раз в пиксельном пространстве при сохранении важных деталей для таких задач, как OCR и анализ финансовых документов.

Эмпирическая производительность: дискретное моделирование не имеет внутренних ограничений

LongCat-Next демонстрирует производительность, превосходящую специализированные модели по многим тестам, эффективно опровергая традиционное представление о том, что «дискретизация неизбежно приводит к потере информации»:

Тонкое восприятие: в тесте OmniDocBench для сценариев с плотным текстом он превосходит не только Qwen3-Omni, но и специализированную модель для обработки изображений Qwen3-VL.

Визуальное мышление: модель набрала впечатляющие 83,1 балла в тесте MathVista, продемонстрировав надежное логическое мышление промышленного уровня.

Межмодальное взаимодействие: сохраняя лидирующие языковые возможности (C-Eval 86,80), система поддерживает параллельное генерирование текста и речи с низкой задержкой, а также настраиваемое клонирование голоса.

Взгляд на отрасль: основа для ИИ в реальном мире

Крупные языковые модели долгое время были сосредоточены на тексте. Прорыв LongCat-Next заключается в том, что он доказал: информацию о физическом мире можно дискретизировать и моделировать так же, как язык. Когда ИИ обладает единым «родным языком», он становится более умным и интуитивным при использовании инструментов, написании кода или интерпретации сложных диаграмм.

MiTi теперь открыла исходный код модели LongCat-Next и токенизатора dNaViT. Эта эффективная и перспективная нативная дискретная архитектура предоставляет разработчикам необходимые инструменты для создания ИИ, способного воспринимать реальный мир и взаимодействовать с ним.

Связанная статья

МИИТ просит общественность дать отзывы по 121 отраслевому стандарту, включая Протокол контекста моделей искусственного интеллекта Министерство промышленности и информационных технологий Китая официально опубликовало уведомление с призывом к общественным отзывам по 121 проекту в области стандартизации промышленности, включая «Требования к безопасности приложений в контексте моде

OpenAI сотрудничает с Министерством обороны США; количество случаев деинсталляции ChatGPT увеличилось на 295%. Общественный гнев: Военное сотрудничество OpenAI вызывает волну отзывов о необходимости удаления приложенияНедавно ведущая компания в области искусственного интеллекта OpenAI объявила о тесном сотрудничестве с Министерством обороны США, предусматрив

OpenAI запускает функцию «Сайты», положив конец эре «безкодового» программирования благодаря веб-сайтам на базе Word Компания OpenAI представила Sites — новую функцию для Codex, своего ИИ-решения для разработки программного обеспечения. В настоящее время функция находится в стадии предварительного доступа и доступна

Рекомендации по связанным специальным темам

Образование и обучение

Лучшие инструменты искусственного интеллекта для систематического повторения материала: оптимизация учебных планов студентов-медиков и юристов

Откройте для себя лучшие инструменты для повторения материала с использованием технологий искусственного интеллекта в 2026 году, подобранные компанией XIX.AI. Наши самые популярные и революционные инструменты помогут студентам-медикам и юристам оптимизировать расписание занятий для лучшего запоминания информации. Сравните бесплатные и платные варианты с использованием реальных примеров и еженедельно обновляемых рейтингов. Раскройте для себя все возможности эффективного обучения уже сегодня.

10 инструментов

xix.ai

Создание видео

Лучшие платформы для преобразования текста в видео с помощью ИИ для написания сценариев и визуального повествования

2026: лучшие платформы для преобразования текста в видео с помощью ИИ: самые популярные инструменты для написания сценариев и визуального повествования. Откройте для себя мощные, революционные решения, которые помогут превратить ваш текст в увлекательные видеоролики. Сравните бесплатные и платные варианты с помощью наших еженедельно обновляемых рейтингов и реальных тестов. Найдите идеальную платформу, которая поможет вам раскрыть свой творческий потенциал и повысить продуктивность. Ознакомьтесь с тщательно подобранной подборкой на сайте XIX.AI.

10 инструментов

xix.ai

чат-бот

АИ-оркестраторы множественных агентов: создание сложных автоматизированных рабочих процессов с использованием естественного языка

2026 Год: Откройте для себя лучшие инструменты на основе искусственного интеллекта, предназначенные для создания сложных автоматизированных рабочих процессов с использованием естественного языка. Наш отобранный список включает наиболее популярные и мощные платформы, обеспечивающие бесшовную автоматизацию задач и интеллектуальное управление процессами. Сравните бесплатные и платные варианты с примерами реального использования. Получите преимущества, предоставляемые технологиями искусственного интеллекта, благодаря еженедельно обновляемым рейтингам от XIX.AI.

10 инструментов

xix.ai

Редактирование изображений

Лучшее программное обеспечение для снижения шума на основе искусственного интеллекта: устранение зерна и артефактов на снимках, сделанных в условиях слабого освещения ночью

Откройте для себя лучшие программы по уменьшению шума на основе искусственного интеллекта в 2026 году, предназначенные для фотографии в условиях слабого освещения ночью. Наш список, составленный специально для вас, сравнивает бесплатные и платные инструменты, включает результаты реальных тестов и еженедельно обновляемые рейтинги. Избавьтесь от шума и других нежелательных эффектов без особых усилий. Откройте для себя преимущества искусственного интеллекта в сервисе XIX.AI.

10 инструментов

xix.ai

чат-бот

Лучшие генераторы индивидуальных ИИ-подруг: создавайте уникальные характеры, увлечения и истории

Откройте для себя 2026 лучших генераторов индивидуальных ИИ-подруг на сайте XIX.AI. Ознакомьтесь с нашим тщательно отобранным списком самых популярных сервисов, которые помогут вам создать уникальные личности, увлечения и глубокие предыстории. Сравните бесплатные и платные варианты с помощью реальных отзывов. Найдите своего идеального творческого спутника уже сегодня.

10 инструментов

xix.ai

Производительность

Разработчики архитектуры ИИ: создание масштабируемых системных архитектур с использованием естественного языка

Откройте для себя лучшие инструменты для проектирования архитектуры ИИ 2026 года на сайте XIX.AI. В нашем тщательно отобранном списке лидеров представлены мощные, революционные решения для создания масштабируемых системных архитектур с помощью естественного языка. Сравните бесплатные и платные варианты, опираясь на реальные отзывы. Раскройте свой потенциал в сфере ИИ и оптимизируйте процесс разработки уже сегодня.

10 инструментов

xix.ai

Комментарии (1)

0/500

Пожалуйста, войдите в систему

CharlesHernández

16 мая 2026 г., 21:00:15 GMT+03:00

Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

Лучшие новости

AI Builder и Power Automate Революционизируют Суммирование Документов AI Hosts of Notebooklm подкаста теперь доступны для интервью Китай представляет национальный гуманоидный робот и стандарты воплощенного интеллекта По данным Ramp, корпоративное внедрение ИИ находится на плаву Руководство по создателю изображений Bing: Гайд по генерации искусством ИИ Научитесь создавать музыку ИИ, используя свой голос: пошаговый учебник SUNO iMyFone MagicMic: Обзор и руководство по реальном времени AI изменению голоса Топовые генераторы видео на AI в 2025: Pika Labs по сравнению с альтернативами Компания Embodied Intelligence представляет первый отраслевой стандарт, призванный сдержать неконтролируемый рост DeepSeek V4 становится мультимодальным искусственным интеллектом, меняющим правила игры

Более

Показан