вариант
Дом
Новости
Улучшение способности ИИ создавать реалистичные отражения в зеркале

Улучшение способности ИИ создавать реалистичные отражения в зеркале

24 июля 2025 г.
0

С тех пор как генеративный ИИ привлек широкое внимание, исследователи в области компьютерного зрения усилили работу над разработкой моделей, способных понимать и воспроизводить физические законы, уделяя особое внимание таким задачам, как моделирование гравитации и динамики жидкостей за последние пять лет.

С появлением моделей латентной диффузии (LDM) в 2022 году внимание сместилось на их трудности с точным изображением физических явлений. Эта проблема стала особенно актуальной после выпуска видеомодели Sora от OpenAI и недавних open-source релизов Hunyuan Video и Wan 2.1.

Проблемы с отражениями

Исследования по улучшению понимания физики LDM в основном сосредоточены на таких областях, как симуляция походки и ньютоновское движение, поскольку неточности здесь подрывают реалистичность видео, созданных ИИ.

Тем не менее, всё больше работ направлено на ключевую слабость LDM: ограниченную способность создавать точные отражения.

Из статьи января 2025 года 'Отражение реальности: Обеспечение диффузионных моделей для создания точных зеркальных отражений', примеры 'ошибок отражения' в сравнении с подходом авторов. Источник: https://arxiv.org/pdf/2409.14677

Из статьи января 2025 года 'Отражение реальности: Обеспечение диффузионных моделей для создания точных зеркальных отражений', примеры 'ошибок отражения' в сравнении с подходом авторов. Источник: https://arxiv.org/pdf/2409.14677

Эта проблема, также распространённая в CGI и видеоиграх, решается с помощью алгоритмов трассировки лучей, которые моделируют взаимодействие света с поверхностями, создавая реалистичные отражения, преломления и тени.

Однако каждый дополнительный отскок луча света значительно увеличивает вычислительные затраты, вынуждая приложения реального времени балансировать между задержкой и точностью, ограничивая количество отскоков.

Представление виртуально рассчитанного светового луча в традиционном 3D-сценарии (т.е. CGI), использующем технологии и принципы, впервые разработанные в 1960-х годах и реализованные в период между 1982–1993 годами (от 'Трон' [1982] до 'Парка Юрского периода' [1993]). Источник: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

Виртуальный световой луч в 3D-сценарии (CGI), использующий технологии 1960-х годов, усовершенствованные в период между 'Трон' (1982) и 'Парк Юрского периода' (1993). Источник: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

Например, рендеринг хромированного чайника перед зеркалом включает многократные отскоки лучей света, создавая почти бесконечные циклы с минимальной визуальной пользой. Обычно двух–трёх отскоков достаточно для заметных отражений, так как один отскок даёт тёмное зеркало.

Каждый дополнительный отскок удваивает время рендеринга, делая эффективную обработку отражений критически важной для улучшения визуальных эффектов с трассировкой лучей.

Отражения жизненно важны для фотореализма в более тонких случаях, таких как мокрые городские улицы, отражения в витринах магазинов или очках персонажей, где объекты и окружающая среда должны отображаться точно.

Симулированное двойное отражение, достигнутое с помощью традиционного композинга для культовой сцены в 'Матрице' (1999).

Двойное отражение, созданное с помощью традиционного композинга для сцены в 'Матрице' (1999).

Проблемы в визуализации

До появления диффузионных моделей такие фреймворки, как Neural Radiance Fields (NeRF) и более новые подходы, такие как Gaussian Splatting, испытывали трудности с естественным изображением отражений.

Проект REF2-NeRF предложил метод на основе NeRF для сцен с стеклянными витринами, моделирующий преломление и отражение с учётом перспективы зрителя. Это позволило оценить стеклянные поверхности и разделить прямой и отражённый свет.

Примеры из статьи Ref2Nerf. Источник: https://arxiv.org/pdf/2311.17116

Примеры из статьи Ref2Nerf. Источник: https://arxiv.org/pdf/2311.17116

Другие решения для NeRF, ориентированные на отражения, включают NeRFReN, Reflecting Reality и проект Meta 2024 года Planar Reflection-Aware Neural Radiance Fields.

Для Gaussian Splatting такие проекты, как Mirror-3DGS, Reflective Gaussian Splatting и RefGaussian, решали проблемы с отражениями, тогда как проект Nero 2023 года представил уникальный метод для нейронных представлений.

Прорыв MirrorVerse

Обучение диффузионных моделей логике отражений сложнее, чем в структурных методах, таких как Gaussian Splatting или NeRF. Надёжное отражение в диффузионных моделях зависит от разнообразных высококачественных данных для обучения в различных сценариях.

Традиционно добавление таких поведений включает LoRA или тонкую настройку, но они искажают результаты или создают инструменты, специфичные для модели, несовместимые с исходной моделью.

Улучшение диффузионных моделей требует данных для обучения, акцентирующих физику отражений. Однако создание гипермасштабных наборов данных для каждой слабости дорого и непрактично.

Тем не менее, появляются решения, такие как проект MirrorVerse из Индии, который предлагает улучшенный набор данных и метод обучения для повышения точности отражений в диффузионных моделях.

Справа результаты MirrorVerse в сравнении с двумя предыдущими подходами (средние два столбца). Источник: https://arxiv.org/pdf/2504.15397

Справа результаты MirrorVerse в сравнении с двумя предыдущими подходами (средние столбцы). Источник: https://arxiv.org/pdf/2504.15397

Как показано выше, MirrorVerse улучшает недавние достижения, но не является безупречным.

На верхнем правом изображении керамические кувшины слегка смещены, а на нижнем изображении появляется ошибочное отражение чашки, противоречащее естественным углам отражения.

Мы рассмотрим этот метод не как окончательное решение, а чтобы подчеркнуть сохраняющиеся проблемы, с которыми сталкиваются диффузионные модели в статических и видеоформатах, где данные об отражениях часто привязаны к конкретным сценариям.

Таким образом, LDM могут отставать от NeRF, Gaussian Splatting и традиционного CGI по точности отражений.

Статья, MirrorVerse: Доведение диффузионных моделей до реалистичного отражения мира, подготовлена исследователями из Vision and AI Lab, IISc Bangalore, и Samsung R&D Institute, Bangalore, с проектной страницей, набором данных на Hugging Face и кодом на GitHub.

Методология

Исследователи подчёркивают трудности, с которыми сталкиваются модели, такие как Stable Diffusion и Flux, при работе с запросами, связанными с отражениями, как показано ниже:

Из статьи: Современные модели преобразования текста в изображение, SD3.5 и Flux, показали значительные трудности с созданием согласованных и геометрически точных отражений при запросе на генерацию отражений в сцене.

Из статьи: Ведущие модели преобразования текста в изображение, SD3.5 и Flux, испытывают трудности с согласованными и геометрически точными отражениями.

Команда разработала MirrorFusion 2.0, модель на основе диффузии для повышения фотореализма и геометрической точности зеркальных отражений. Она обучалась на наборе данных MirrorGen2, разработанном для решения проблем обобщения.

MirrorGen2 включает случайное позиционирование объектов, случайные вращения и явное закрепление объектов для обеспечения правдоподобных отражений при различных размещениях объектов.

Схема генерации синтетических данных в MirrorVerse: процесс создания набора данных применял ключевые аугментации, случайным образом позиционируя, вращая и закрепляя объекты в сцене с использованием 3D-Positioner. Объекты также парно подбирались в семантически согласованных комбинациях для моделирования сложных пространственных отношений и окклюзий, позволяя набору данных захватывать более реалистичные взаимодействия в сценах с несколькими объектами.

Схема синтетических данных MirrorVerse: случайное позиционирование, вращение и закрепление через 3D-Positioner, с парным подбором объектов для реалистичных пространственных взаимодействий.

MirrorGen2 включает сцены с парным расположением объектов для лучшей обработки окклюзий и сложных пространственных конфигураций в отражающих настройках.

В статье отмечается:

‘Категории подбираются для семантической согласованности, например, стул с столом. После размещения основного объекта добавляется второстепенный без пересечения, обеспечивая чёткие пространственные области.’

Для закрепления объектов авторы обеспечили их привязку к земле, избегая неестественного 'плавания' в синтетических данных.

Поскольку новизна статьи обусловлена инновациями в наборе данных, мы рассмотрим это далее.

Данные и тесты

SynMirrorV2

Набор данных SynMirrorV2 повышает разнообразие данных для обучения отражений, используя 3D-объекты из Objaverse и Amazon Berkeley Objects (ABO), отфильтрованные через OBJECT 3DIT и V1 MirrorFusion, что дало 66,062 высококачественных объекта.

Примеры из набора данных Objaverse, использованные для создания курированного набора данных для новой системы. Источник: https://arxiv.org/pdf/2212.08051

Примеры из набора данных Objaverse, использованные для курированного набора данных. Источник: https://arxiv.org/pdf/2212.08051

Сцены создавались с текстурированными полами из CC-Textures и HDRI-фонами из PolyHaven, используя полноразмерные или прямоугольные зеркала. Освещение обеспечивала лампа с углом 45 градусов. Объекты масштабировались, позиционировались через пересечение зеркала и камеры и случайным образом вращались по оси y, с закреплением для избежания артефактов плавания.

Сцены с несколькими объектами использовали 3,140 семантически согласованных пар из ABO, избегая пересечений для захвата различных окклюзий и глубины.

Примеры рендеринга сцен из набора данных авторов с несколькими (более двух) объектами, с иллюстрациями сегментации объектов и визуализацией карт глубины, показанных ниже.

Рендеринг сцен из набора данных с несколькими объектами, с демонстрацией сегментации и карт глубины.

Процесс обучения

Трёхэтапный процесс обучения по программе curriculum learning обучал MirrorFusion 2.0 для устойчивого обобщения в реальных условиях.

Этап 1 инициализировал веса из Stable Diffusion v1.5, с тонкой настройкой на однообъектной части SynMirrorV2 в течение 40,000 итераций, сохраняя активными ветви обусловливания и генерации.

Этап 2 проводил тонкую настройку в течение 10,000 итераций на многообъектной части SynMirrorV2 для обработки окклюзий и сложных сцен.

Этап 3 добавил 10,000 итераций с реальными данными набора MSD, используя карты глубины Matterport3D.

Примеры из набора данных MSD с реальными сценами, проанализированными в карты глубины и сегментации. Источник: https://arxiv.org/pdf/1908.09101

Примеры из набора данных MSD с картами глубины и сегментации. Источник: https://arxiv.org/pdf/1908.09101

Текстовые подсказки опускались в 20% случаев для приоритета информации о глубине. Обучение проводилось на четырёх GPU NVIDIA A100, с шагом обучения 1e-5, размером пакета 4 на GPU и оптимизатором AdamW.

Этот прогрессивный процесс обучения переходил от простых синтетических сцен к сложным реальным для лучшей переносимости.

Тестирование

MirrorFusion 2.0 тестировалась против базовой модели MirrorFusion на MirrorBenchV2, охватывая одно- и многообъектные сцены, с качественными тестами на наборах данных MSD и Google Scanned Objects (GSO).

Оценка проводилась на 2,991 однообъектной и 300 двухобъектных сценах, измеряя PSNR, SSIM и LPIPS для качества отражений и CLIP для соответствия подсказкам. Изображения генерировались с четырьмя сидами, выбирая лучший результат по SSIM.

Слева: Количественные результаты качества генерации отражений одного объекта на однообъектной части MirrorBenchV2. MirrorFusion 2.0 превзошла базовую модель, лучшие результаты выделены жирным. Справа: Количественные результаты качества генерации отражений нескольких объектов на многообъектной части MirrorBenchV2. MirrorFusion 2.0, обученная на нескольких объектах, превзошла версию без такого обучения, лучшие результаты выделены жирным.

Слева: Качество отражений одного объекта на MirrorBenchV2, MirrorFusion 2.0 превзошла базовую модель. Справа: Качество отражений нескольких объектов, обучение на нескольких объектах улучшило результаты.

Авторы отмечают:

‘Наш метод превосходит базовую модель, а тонкая настройка на нескольких объектах улучшает результаты в сложных сценах.’

Качественные тесты подчеркнули улучшения MirrorFusion 2.0:

Сравнение на MirrorBenchV2: базовая модель не смогла сохранить точные отражения и пространственную согласованность, показывая неверную ориентацию стула и искажённые отражения нескольких объектов, тогда как (авторы утверждают) MirrorFusion 2.0 корректно рендерит стул и диваны с точной позицией, ориентацией и структурой.

Сравнение на MirrorBenchV2: Базовая модель показывает неверную ориентацию стула и искажённые отражения; MirrorFusion 2.0 рендерит точно.

Результаты на наборе данных GSO:

Сравнение на наборе данных GSO. Базовая модель искажала структуру объектов и создавала неполные, искажённые отражения, тогда как MirrorFusion 2.0, по утверждению авторов, сохраняет пространственную целостность и генерирует точную геометрию, цвет и детали даже для объектов вне распределения.

Сравнение на GSO: Базовая модель искажает структуру объектов; MirrorFusion 2.0 сохраняет геометрию, цвет и детали.

Авторы комментируют:

‘MirrorFusion 2.0 точно отражает детали, такие как ручки ящиков, тогда как базовая модель выдаёт неправдоподобные результаты.’

Результаты на реальном наборе данных MSD:

Результаты реальных сцен, сравнивающие MirrorFusion, MirrorFusion 2.0 и MirrorFusion 2.0, тонко настроенную на наборе данных MSD. MirrorFusion 2.0, по утверждению авторов, точнее фиксирует детали сложных сцен, включая нагромождённые объекты на столе и наличие нескольких зеркал в трёхмерной среде. Здесь показаны только частичные результаты из-за размеров результатов в оригинальной статье, на которую мы отсылаем читателя для полных результатов и лучшего разрешения.

Результаты MSD: MirrorFusion 2.0, тонко настроенная на MSD, точно фиксирует сложные сцены с нагромождёнными объектами и несколькими зеркалами.

Тонкая настройка на MSD улучшила способность MirrorFusion 2.0 обрабатывать сложные реальные сцены, повышая согласованность отражений.

Исследование пользователей показало, что 84% предпочли результаты MirrorFusion 2.0.

Результаты исследования пользователей.

Результаты исследования пользователей.

Заключение

Хотя MirrorFusion 2.0 знаменует прогресс, базовый уровень точности отражений в диффузионных моделях остаётся низким, что делает даже скромные улучшения заметными. Архитектура диффузионных моделей испытывает трудности с согласованной физикой, и добавление данных, как здесь, является стандартным, но ограниченным решением.

Будущие наборы данных с лучшим распределением данных об отражениях могут улучшить результаты, но это относится ко многим слабостям LDM. Приоритизация проблем для решения остаётся вызовом.

Впервые опубликовано в понедельник, 28 апреля 2025 года

Связанная статья
AI-управляемая стратегия TradingView для повышенной точности AI-управляемая стратегия TradingView для повышенной точности В быстро меняющемся торговом ландшафте эффективные инструменты имеют решающее значение. Эта статья представляет упрощённую стратегию TradingView, использующую AI-индикаторы для повышения точности и пр
Создание уникальных логотипов с помощью ИИ: Пошаговое руководство Создание уникальных логотипов с помощью ИИ: Пошаговое руководство Создание профессионального логотипа может быть сложной задачей для бизнеса, стартапов и личных брендов. Традиционные методы часто требуют дорогостоящих дизайнеров или сложного программного обеспечения
Зависимость от ИИ может ослабить критическое мышление: исследование MIT выявляет когнитивные риски Зависимость от ИИ может ослабить критическое мышление: исследование MIT выявляет когнитивные риски В эпоху, когда инструменты ИИ, такие как ChatGPT, стали такими же привычными, как проверка орфографии, исследование MIT предупреждает, что наша нарастающая зависимость от больших языковых моделей (LLM
Вернуться к вершине
OR