Дом
TIPSv2 от Google DeepMind: ИИ, который действительно понимает изображения, а не просто бегло просматривает их
В настоящее время система искусственного интеллекта, распознающая изображения, имеет одно существенное ограничение.
На вопрос «Что изображено на этой картинке?» система может дать подробный ответ. Однако на вопрос «Где находится левая задняя лапа панды?» ответы будут расплывчатыми. Это не недостаток какой-то конкретной модели, а постоянная проблема, характерная для всей области крупных моделей визуально-языкового взаимодействия: сильное глобальное понимание, но слабая локальная локализация.
Google DeepMind представила в своей последней статье модель TIPSv2, специально разработанную для решения этой сложной проблемы.

Исследовательская группа сделала неожиданное открытие: при выполнении задач тонкой сегментации небольшие «ученические» модели часто показывают лучшие результаты, чем более крупные «учительские» модели. Это происходит потому, что дистилляция устраняет механизм маскирования, заставляя модель изучать каждую деталь всего изображения, создавая своего рода «контроль над всей областью». Основываясь на этом открытии, в TIPSv2 были внедрены три ключевых усовершенствования.
Во-первых, iBOT++. Традиционное предварительное обучение вычисляет потери только для замаскированных областей, оставляя видимые области без внимания, что приводит к смещению локальной семантики. iBOT++ требует от модели обеспечения точного контроля над всеми видимыми областями, эффективно повышая уровень задачи с «игры-головоломки» до «внимательного чтения всего текста». Это одно улучшение повысило производительность сегментации без обучающих данных на 14,1 процентных пункта.
Во-вторых, EMA только для головки. Традиционное самообучение требует хранения в памяти двух почти идентичных больших моделей, что очень ресурсоемко. В TIPSv2 обнаружили, что одного контрастирующего убытка «изображение-текст» достаточно для стабилизации базовой сети, поэтому EMA нужно применять только к конечной проекционной головке, что устраняет необходимость дублирования базовой сети. Это сокращает количество параметров обучения примерно на 42%, ускоряя процесс практически без потери производительности.
В-третьих, сопоставление текста с различной степенью детализации. Во время обучения короткие описания из Интернета, описания средней детализации и длинные описания, сгенерированные Gemini, случайным образом смешиваются и подаются в модель, чередуя простые и сложные задачи. Это не позволяет модели «раскатиться» на простых задачах, одновременно гарантируя, что ни одна деталь не будет упущена.
Конечные результаты впечатляют. TIPSv2 прошла оценку в режиме «frozen» по девяти задачам и 20 авторитетным наборам данных. Семантическая сегментация без предварительного обучения (zero-shot) достигла нового отраслевого рекорда, а поиск и классификация по изображениям и тексту превзошли сравниваемые модели, имеющие на 56% больше параметров. Чисто визуальные задачи также вошли в число лучших результатов.
Код и веса модели TIPSv2 полностью открыты. Командам, работающим в области медицинской визуализации, автономного вождения, промышленного контроля и других областях, требующих высокоточного понимания изображений, стоит внимательно присмотреться к этому решению.
Статья: https://www.alphaxiv.org/abs/2604.12012
Связанная статья
Cursor Composer 2 против Claude Opus 4.6: тест производительности разжигает новую дискуссию о программировании с помощью ИИ
19 марта компания Cursor официально представила свою собственную модель кодирования — Composer 2. Это объявление сразу же вызвало бурную дискуссию в сообществе разработчиков — по данным Cursor, Compos
На конференции StrictlyVC в Сан-Франциско соберутся руководители компаний TDK Ventures, Replit и других
Первое в этом году мероприятие StrictlyVC состоится в Сан-Франциско раньше, чем вы думаете. Еще есть билеты на нашу встречу 30 апреля в Sentro Filipino Cultural Center, где выступит впечатляющий соста
Notion превращает свое рабочее пространство в центр для ИИ-агентов
Компания Notion, разработчик программного обеспечения для повышения продуктивности, вступает в эру агентов.Во время прямой трансляции анонса продукта в среду компания Notion, наиболее известная своим
Рекомендации по связанным специальным темам
Комментарии (0)
В настоящее время система искусственного интеллекта, распознающая изображения, имеет одно существенное ограничение.
На вопрос «Что изображено на этой картинке?» система может дать подробный ответ. Однако на вопрос «Где находится левая задняя лапа панды?» ответы будут расплывчатыми. Это не недостаток какой-то конкретной модели, а постоянная проблема, характерная для всей области крупных моделей визуально-языкового взаимодействия: сильное глобальное понимание, но слабая локальная локализация.
Google DeepMind представила в своей последней статье модель TIPSv2, специально разработанную для решения этой сложной проблемы.

Исследовательская группа сделала неожиданное открытие: при выполнении задач тонкой сегментации небольшие «ученические» модели часто показывают лучшие результаты, чем более крупные «учительские» модели. Это происходит потому, что дистилляция устраняет механизм маскирования, заставляя модель изучать каждую деталь всего изображения, создавая своего рода «контроль над всей областью». Основываясь на этом открытии, в TIPSv2 были внедрены три ключевых усовершенствования.
Во-первых, iBOT++. Традиционное предварительное обучение вычисляет потери только для замаскированных областей, оставляя видимые области без внимания, что приводит к смещению локальной семантики. iBOT++ требует от модели обеспечения точного контроля над всеми видимыми областями, эффективно повышая уровень задачи с «игры-головоломки» до «внимательного чтения всего текста». Это одно улучшение повысило производительность сегментации без обучающих данных на 14,1 процентных пункта.
Во-вторых, EMA только для головки. Традиционное самообучение требует хранения в памяти двух почти идентичных больших моделей, что очень ресурсоемко. В TIPSv2 обнаружили, что одного контрастирующего убытка «изображение-текст» достаточно для стабилизации базовой сети, поэтому EMA нужно применять только к конечной проекционной головке, что устраняет необходимость дублирования базовой сети. Это сокращает количество параметров обучения примерно на 42%, ускоряя процесс практически без потери производительности.
В-третьих, сопоставление текста с различной степенью детализации. Во время обучения короткие описания из Интернета, описания средней детализации и длинные описания, сгенерированные Gemini, случайным образом смешиваются и подаются в модель, чередуя простые и сложные задачи. Это не позволяет модели «раскатиться» на простых задачах, одновременно гарантируя, что ни одна деталь не будет упущена.
Конечные результаты впечатляют. TIPSv2 прошла оценку в режиме «frozen» по девяти задачам и 20 авторитетным наборам данных. Семантическая сегментация без предварительного обучения (zero-shot) достигла нового отраслевого рекорда, а поиск и классификация по изображениям и тексту превзошли сравниваемые модели, имеющие на 56% больше параметров. Чисто визуальные задачи также вошли в число лучших результатов.
Код и веса модели TIPSv2 полностью открыты. Командам, работающим в области медицинской визуализации, автономного вождения, промышленного контроля и других областях, требующих высокоточного понимания изображений, стоит внимательно присмотреться к этому решению.
Статья: https://www.alphaxiv.org/abs/2604.12012
Cursor Composer 2 против Claude Opus 4.6: тест производительности разжигает новую дискуссию о программировании с помощью ИИ
19 марта компания Cursor официально представила свою собственную модель кодирования — Composer 2. Это объявление сразу же вызвало бурную дискуссию в сообществе разработчиков — по данным Cursor, Compos
На конференции StrictlyVC в Сан-Франциско соберутся руководители компаний TDK Ventures, Replit и других
Первое в этом году мероприятие StrictlyVC состоится в Сан-Франциско раньше, чем вы думаете. Еще есть билеты на нашу встречу 30 апреля в Sentro Filipino Cultural Center, где выступит впечатляющий соста
Notion превращает свое рабочее пространство в центр для ИИ-агентов
Компания Notion, разработчик программного обеспечения для повышения продуктивности, вступает в эру агентов.Во время прямой трансляции анонса продукта в среду компания Notion, наиболее известная своим











