TIPSv2 от Google DeepMind: ИИ, который действительно понимает изображения, а не просто бегло просматривает их

Дом

Новости

31 мая 2026 г.

WillWalker

В настоящее время система искусственного интеллекта, распознающая изображения, имеет одно существенное ограничение.

На вопрос «Что изображено на этой картинке?» система может дать подробный ответ. Однако на вопрос «Где находится левая задняя лапа панды?» ответы будут расплывчатыми. Это не недостаток какой-то конкретной модели, а постоянная проблема, характерная для всей области крупных моделей визуально-языкового взаимодействия: сильное глобальное понимание, но слабая локальная локализация.

Google DeepMind представила в своей последней статье модель TIPSv2, специально разработанную для решения этой сложной проблемы.

Схема метода TIPSv2

Исследовательская группа сделала неожиданное открытие: при выполнении задач тонкой сегментации небольшие «ученические» модели часто показывают лучшие результаты, чем более крупные «учительские» модели. Это происходит потому, что дистилляция устраняет механизм маскирования, заставляя модель изучать каждую деталь всего изображения, создавая своего рода «контроль над всей областью». Основываясь на этом открытии, в TIPSv2 были внедрены три ключевых усовершенствования.

Во-первых, iBOT++. Традиционное предварительное обучение вычисляет потери только для замаскированных областей, оставляя видимые области без внимания, что приводит к смещению локальной семантики. iBOT++ требует от модели обеспечения точного контроля над всеми видимыми областями, эффективно повышая уровень задачи с «игры-головоломки» до «внимательного чтения всего текста». Это одно улучшение повысило производительность сегментации без обучающих данных на 14,1 процентных пункта.

Во-вторых, EMA только для головки. Традиционное самообучение требует хранения в памяти двух почти идентичных больших моделей, что очень ресурсоемко. В TIPSv2 обнаружили, что одного контрастирующего убытка «изображение-текст» достаточно для стабилизации базовой сети, поэтому EMA нужно применять только к конечной проекционной головке, что устраняет необходимость дублирования базовой сети. Это сокращает количество параметров обучения примерно на 42%, ускоряя процесс практически без потери производительности.

В-третьих, сопоставление текста с различной степенью детализации. Во время обучения короткие описания из Интернета, описания средней детализации и длинные описания, сгенерированные Gemini, случайным образом смешиваются и подаются в модель, чередуя простые и сложные задачи. Это не позволяет модели «раскатиться» на простых задачах, одновременно гарантируя, что ни одна деталь не будет упущена.

Конечные результаты впечатляют. TIPSv2 прошла оценку в режиме «frozen» по девяти задачам и 20 авторитетным наборам данных. Семантическая сегментация без предварительного обучения (zero-shot) достигла нового отраслевого рекорда, а поиск и классификация по изображениям и тексту превзошли сравниваемые модели, имеющие на 56% больше параметров. Чисто визуальные задачи также вошли в число лучших результатов.

Код и веса модели TIPSv2 полностью открыты. Командам, работающим в области медицинской визуализации, автономного вождения, промышленного контроля и других областях, требующих высокоточного понимания изображений, стоит внимательно присмотреться к этому решению.

Статья: https://www.alphaxiv.org/abs/2604.12012

Связанная статья

Cursor Composer 2 против Claude Opus 4.6: тест производительности разжигает новую дискуссию о программировании с помощью ИИ 19 марта компания Cursor официально представила свою собственную модель кодирования — Composer 2. Это объявление сразу же вызвало бурную дискуссию в сообществе разработчиков — по данным Cursor, Compos

На конференции StrictlyVC в Сан-Франциско соберутся руководители компаний TDK Ventures, Replit и других Первое в этом году мероприятие StrictlyVC состоится в Сан-Франциско раньше, чем вы думаете. Еще есть билеты на нашу встречу 30 апреля в Sentro Filipino Cultural Center, где выступит впечатляющий соста

Notion превращает свое рабочее пространство в центр для ИИ-агентов Компания Notion, разработчик программного обеспечения для повышения продуктивности, вступает в эру агентов.Во время прямой трансляции анонса продукта в среду компания Notion, наиболее известная своим

Рекомендации по связанным специальным темам

письмо

Лучшие инструменты для создания скриптов на основе искусственного интеллекта для радио и подкастинга: написание увлекательных аудиореклам

Откройте для себя лучшие инструменты для создания скриптов на основе искусственного интеллекта в 2026 году, предназначенные для радио- и подкастинга, на сайте XIX.AI. Наш тщательно отобранный список включает мощные решения, способные значительно ускорить процесс создания привлекательных аудиореклам. Сравните бесплатные и платные варианты на основе реальных тестов и еженедельно обновляемых рейтингов. Раскройте свой творческий потенциал уже сегодня!

10 инструментов

xix.ai

Бизнес

Лучшее программное обеспечение для проверки договоров с помощью ИИ: мгновенное выявление юридических лазеек и рисков несоблюдения нормативных требований

Откройте для себя лучшее программное обеспечение 2026 года для анализа договоров с помощью ИИ на сайте XIX.AI. В нашем тщательно отобранном списке лидеров представлены мощные инструменты, которые мгновенно выявляют юридические лазейки и риски несоответствия нормативным требованиям. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемых рейтингов. Найдите решение, которое кардинально изменит ваш подход к безопасному и эффективному анализу договоров. Ознакомьтесь с исчерпывающим руководством прямо сейчас.

10 инструментов

xix.ai

Создание анимации

Генератор аниме на основе искусственного интеллекта для Donghua: Создание персонажей для веб-романов и аватаров для комиксов

Откройте для себя лучшие генераторы аниме на основе искусственного интеллекта 2026 года для создания донхуа. Наш список, составленный специально для вас, включает мощные инструменты, позволяющие создавать потрясающих персонажей для веб-новелл и комиксов. Сравните бесплатные и платные варианты на основе реальных тестов. Найдите идеального помощника в творчестве и превратите свои истории в жизнь сегодня на сайте XIX.AI.

10 инструментов

xix.ai

Создание комиксов

Лучшие инструменты для автоматической раскраски манги с помощью ИИ: нанесение плоских цветов без ошибок в цветовом решении

Откройте для себя лучшие инструменты для автоматической раскраски манги с помощью ИИ в 2026 году на сайте XIX.AI. В нашем тщательно составленном списке представлены самые популярные и революционные решения, которые наносят плоские цвета без единой ошибки в цветовом соответствии, что значительно повышает вашу продуктивность. Изучите сравнения бесплатных и платных версий, результаты реальных тестов и еженедельно обновляемые рейтинги, чтобы найти идеальный вариант для себя. Воспользуйтесь преимуществами ИИ уже сегодня.

10 инструментов

xix.ai

письмо

Лучшие программы для создания персонажей в жанре научной фантастики: генерация последовательных мотиваций персонажей и их роковых недостатков

Откройте для себя 20 лучших инструментов 2026 года для создания персонажей с помощью искусственного интеллекта, которые помогут вам придать своим героям глубину. В тщательно подобранном списке XIX.AI представлены самые популярные и революционные инструменты, способные генерировать правдоподобные мотивации и роковые недостатки персонажей. Сравните бесплатные и платные варианты на основе реальных тестов. Раскройте свой потенциал в области создания историй уже сейчас.

10 инструментов

xix.ai

Бизнес

Лучшее ПО для оптимизации цен с помощью ИИ: отслеживание конкурентов и автоматическая корректировка цен в магазине

Откройте для себя лучшее программное обеспечение 2026 года для оптимизации цен с помощью ИИ на сайте XIX.AI. В нашем тщательно подобранном списке представлены высокооцененные, революционные инструменты, которые отслеживают конкурентов и автоматически корректируют цены в вашем магазине для получения максимальной прибыли. Сравните бесплатные и платные варианты на основе реальных тестов. Получите преимущество в ценообразовании уже сейчас.

10 инструментов

xix.ai