Улучшение способности ИИ создавать реалистичные отражения в зеркале
С тех пор как генеративный ИИ привлек широкое внимание, исследователи в области компьютерного зрения усилили работу над разработкой моделей, способных понимать и воспроизводить физические законы, уделяя особое внимание таким задачам, как моделирование гравитации и динамики жидкостей за последние пять лет.
С появлением моделей латентной диффузии (LDM) в 2022 году внимание сместилось на их трудности с точным изображением физических явлений. Эта проблема стала особенно актуальной после выпуска видеомодели Sora от OpenAI и недавних open-source релизов Hunyuan Video и Wan 2.1.
Проблемы с отражениями
Исследования по улучшению понимания физики LDM в основном сосредоточены на таких областях, как симуляция походки и ньютоновское движение, поскольку неточности здесь подрывают реалистичность видео, созданных ИИ.
Тем не менее, всё больше работ направлено на ключевую слабость LDM: ограниченную способность создавать точные отражения.

Из статьи января 2025 года 'Отражение реальности: Обеспечение диффузионных моделей для создания точных зеркальных отражений', примеры 'ошибок отражения' в сравнении с подходом авторов. Источник: https://arxiv.org/pdf/2409.14677
Эта проблема, также распространённая в CGI и видеоиграх, решается с помощью алгоритмов трассировки лучей, которые моделируют взаимодействие света с поверхностями, создавая реалистичные отражения, преломления и тени.
Однако каждый дополнительный отскок луча света значительно увеличивает вычислительные затраты, вынуждая приложения реального времени балансировать между задержкой и точностью, ограничивая количество отскоков.
![Представление виртуально рассчитанного светового луча в традиционном 3D-сценарии (т.е. CGI), использующем технологии и принципы, впервые разработанные в 1960-х годах и реализованные в период между 1982–1993 годами (от 'Трон' [1982] до 'Парка Юрского периода' [1993]). Источник: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing](https://img.xix.ai/uploads/55/680fa78ce2769.webp)
Виртуальный световой луч в 3D-сценарии (CGI), использующий технологии 1960-х годов, усовершенствованные в период между 'Трон' (1982) и 'Парк Юрского периода' (1993). Источник: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing
Например, рендеринг хромированного чайника перед зеркалом включает многократные отскоки лучей света, создавая почти бесконечные циклы с минимальной визуальной пользой. Обычно двух–трёх отскоков достаточно для заметных отражений, так как один отскок даёт тёмное зеркало.
Каждый дополнительный отскок удваивает время рендеринга, делая эффективную обработку отражений критически важной для улучшения визуальных эффектов с трассировкой лучей.
Отражения жизненно важны для фотореализма в более тонких случаях, таких как мокрые городские улицы, отражения в витринах магазинов или очках персонажей, где объекты и окружающая среда должны отображаться точно.

Двойное отражение, созданное с помощью традиционного композинга для сцены в 'Матрице' (1999).
Проблемы в визуализации
До появления диффузионных моделей такие фреймворки, как Neural Radiance Fields (NeRF) и более новые подходы, такие как Gaussian Splatting, испытывали трудности с естественным изображением отражений.
Проект REF2-NeRF предложил метод на основе NeRF для сцен с стеклянными витринами, моделирующий преломление и отражение с учётом перспективы зрителя. Это позволило оценить стеклянные поверхности и разделить прямой и отражённый свет.

Примеры из статьи Ref2Nerf. Источник: https://arxiv.org/pdf/2311.17116
Другие решения для NeRF, ориентированные на отражения, включают NeRFReN, Reflecting Reality и проект Meta 2024 года Planar Reflection-Aware Neural Radiance Fields.
Для Gaussian Splatting такие проекты, как Mirror-3DGS, Reflective Gaussian Splatting и RefGaussian, решали проблемы с отражениями, тогда как проект Nero 2023 года представил уникальный метод для нейронных представлений.
Прорыв MirrorVerse
Обучение диффузионных моделей логике отражений сложнее, чем в структурных методах, таких как Gaussian Splatting или NeRF. Надёжное отражение в диффузионных моделях зависит от разнообразных высококачественных данных для обучения в различных сценариях.
Традиционно добавление таких поведений включает LoRA или тонкую настройку, но они искажают результаты или создают инструменты, специфичные для модели, несовместимые с исходной моделью.
Улучшение диффузионных моделей требует данных для обучения, акцентирующих физику отражений. Однако создание гипермасштабных наборов данных для каждой слабости дорого и непрактично.
Тем не менее, появляются решения, такие как проект MirrorVerse из Индии, который предлагает улучшенный набор данных и метод обучения для повышения точности отражений в диффузионных моделях.

Справа результаты MirrorVerse в сравнении с двумя предыдущими подходами (средние столбцы). Источник: https://arxiv.org/pdf/2504.15397
Как показано выше, MirrorVerse улучшает недавние достижения, но не является безупречным.
На верхнем правом изображении керамические кувшины слегка смещены, а на нижнем изображении появляется ошибочное отражение чашки, противоречащее естественным углам отражения.
Мы рассмотрим этот метод не как окончательное решение, а чтобы подчеркнуть сохраняющиеся проблемы, с которыми сталкиваются диффузионные модели в статических и видеоформатах, где данные об отражениях часто привязаны к конкретным сценариям.
Таким образом, LDM могут отставать от NeRF, Gaussian Splatting и традиционного CGI по точности отражений.
Статья, MirrorVerse: Доведение диффузионных моделей до реалистичного отражения мира, подготовлена исследователями из Vision and AI Lab, IISc Bangalore, и Samsung R&D Institute, Bangalore, с проектной страницей, набором данных на Hugging Face и кодом на GitHub.
Методология
Исследователи подчёркивают трудности, с которыми сталкиваются модели, такие как Stable Diffusion и Flux, при работе с запросами, связанными с отражениями, как показано ниже:

Из статьи: Ведущие модели преобразования текста в изображение, SD3.5 и Flux, испытывают трудности с согласованными и геометрически точными отражениями.
Команда разработала MirrorFusion 2.0, модель на основе диффузии для повышения фотореализма и геометрической точности зеркальных отражений. Она обучалась на наборе данных MirrorGen2, разработанном для решения проблем обобщения.
MirrorGen2 включает случайное позиционирование объектов, случайные вращения и явное закрепление объектов для обеспечения правдоподобных отражений при различных размещениях объектов.

Схема синтетических данных MirrorVerse: случайное позиционирование, вращение и закрепление через 3D-Positioner, с парным подбором объектов для реалистичных пространственных взаимодействий.
MirrorGen2 включает сцены с парным расположением объектов для лучшей обработки окклюзий и сложных пространственных конфигураций в отражающих настройках.
В статье отмечается:
‘Категории подбираются для семантической согласованности, например, стул с столом. После размещения основного объекта добавляется второстепенный без пересечения, обеспечивая чёткие пространственные области.’
Для закрепления объектов авторы обеспечили их привязку к земле, избегая неестественного 'плавания' в синтетических данных.
Поскольку новизна статьи обусловлена инновациями в наборе данных, мы рассмотрим это далее.
Данные и тесты
SynMirrorV2
Набор данных SynMirrorV2 повышает разнообразие данных для обучения отражений, используя 3D-объекты из Objaverse и Amazon Berkeley Objects (ABO), отфильтрованные через OBJECT 3DIT и V1 MirrorFusion, что дало 66,062 высококачественных объекта.

Примеры из набора данных Objaverse, использованные для курированного набора данных. Источник: https://arxiv.org/pdf/2212.08051
Сцены создавались с текстурированными полами из CC-Textures и HDRI-фонами из PolyHaven, используя полноразмерные или прямоугольные зеркала. Освещение обеспечивала лампа с углом 45 градусов. Объекты масштабировались, позиционировались через пересечение зеркала и камеры и случайным образом вращались по оси y, с закреплением для избежания артефактов плавания.
Сцены с несколькими объектами использовали 3,140 семантически согласованных пар из ABO, избегая пересечений для захвата различных окклюзий и глубины.

Рендеринг сцен из набора данных с несколькими объектами, с демонстрацией сегментации и карт глубины.
Процесс обучения
Трёхэтапный процесс обучения по программе curriculum learning обучал MirrorFusion 2.0 для устойчивого обобщения в реальных условиях.
Этап 1 инициализировал веса из Stable Diffusion v1.5, с тонкой настройкой на однообъектной части SynMirrorV2 в течение 40,000 итераций, сохраняя активными ветви обусловливания и генерации.
Этап 2 проводил тонкую настройку в течение 10,000 итераций на многообъектной части SynMirrorV2 для обработки окклюзий и сложных сцен.
Этап 3 добавил 10,000 итераций с реальными данными набора MSD, используя карты глубины Matterport3D.

Примеры из набора данных MSD с картами глубины и сегментации. Источник: https://arxiv.org/pdf/1908.09101
Текстовые подсказки опускались в 20% случаев для приоритета информации о глубине. Обучение проводилось на четырёх GPU NVIDIA A100, с шагом обучения 1e-5, размером пакета 4 на GPU и оптимизатором AdamW.
Этот прогрессивный процесс обучения переходил от простых синтетических сцен к сложным реальным для лучшей переносимости.
Тестирование
MirrorFusion 2.0 тестировалась против базовой модели MirrorFusion на MirrorBenchV2, охватывая одно- и многообъектные сцены, с качественными тестами на наборах данных MSD и Google Scanned Objects (GSO).
Оценка проводилась на 2,991 однообъектной и 300 двухобъектных сценах, измеряя PSNR, SSIM и LPIPS для качества отражений и CLIP для соответствия подсказкам. Изображения генерировались с четырьмя сидами, выбирая лучший результат по SSIM.

Слева: Качество отражений одного объекта на MirrorBenchV2, MirrorFusion 2.0 превзошла базовую модель. Справа: Качество отражений нескольких объектов, обучение на нескольких объектах улучшило результаты.
Авторы отмечают:
‘Наш метод превосходит базовую модель, а тонкая настройка на нескольких объектах улучшает результаты в сложных сценах.’
Качественные тесты подчеркнули улучшения MirrorFusion 2.0:

Сравнение на MirrorBenchV2: Базовая модель показывает неверную ориентацию стула и искажённые отражения; MirrorFusion 2.0 рендерит точно.
Результаты на наборе данных GSO:

Сравнение на GSO: Базовая модель искажает структуру объектов; MirrorFusion 2.0 сохраняет геометрию, цвет и детали.
Авторы комментируют:
‘MirrorFusion 2.0 точно отражает детали, такие как ручки ящиков, тогда как базовая модель выдаёт неправдоподобные результаты.’
Результаты на реальном наборе данных MSD:

Результаты MSD: MirrorFusion 2.0, тонко настроенная на MSD, точно фиксирует сложные сцены с нагромождёнными объектами и несколькими зеркалами.
Тонкая настройка на MSD улучшила способность MirrorFusion 2.0 обрабатывать сложные реальные сцены, повышая согласованность отражений.
Исследование пользователей показало, что 84% предпочли результаты MirrorFusion 2.0.

Результаты исследования пользователей.
Заключение
Хотя MirrorFusion 2.0 знаменует прогресс, базовый уровень точности отражений в диффузионных моделях остаётся низким, что делает даже скромные улучшения заметными. Архитектура диффузионных моделей испытывает трудности с согласованной физикой, и добавление данных, как здесь, является стандартным, но ограниченным решением.
Будущие наборы данных с лучшим распределением данных об отражениях могут улучшить результаты, но это относится ко многим слабостям LDM. Приоритизация проблем для решения остаётся вызовом.
Впервые опубликовано в понедельник, 28 апреля 2025 года
Связанная статья
AI-управляемая стратегия TradingView для повышенной точности
В быстро меняющемся торговом ландшафте эффективные инструменты имеют решающее значение. Эта статья представляет упрощённую стратегию TradingView, использующую AI-индикаторы для повышения точности и пр
Создание уникальных логотипов с помощью ИИ: Пошаговое руководство
Создание профессионального логотипа может быть сложной задачей для бизнеса, стартапов и личных брендов. Традиционные методы часто требуют дорогостоящих дизайнеров или сложного программного обеспечения
Зависимость от ИИ может ослабить критическое мышление: исследование MIT выявляет когнитивные риски
В эпоху, когда инструменты ИИ, такие как ChatGPT, стали такими же привычными, как проверка орфографии, исследование MIT предупреждает, что наша нарастающая зависимость от больших языковых моделей (LLM
Комментарии (0)
С тех пор как генеративный ИИ привлек широкое внимание, исследователи в области компьютерного зрения усилили работу над разработкой моделей, способных понимать и воспроизводить физические законы, уделяя особое внимание таким задачам, как моделирование гравитации и динамики жидкостей за последние пять лет.
С появлением моделей латентной диффузии (LDM) в 2022 году внимание сместилось на их трудности с точным изображением физических явлений. Эта проблема стала особенно актуальной после выпуска видеомодели Sora от OpenAI и недавних open-source релизов Hunyuan Video и Wan 2.1.
Проблемы с отражениями
Исследования по улучшению понимания физики LDM в основном сосредоточены на таких областях, как симуляция походки и ньютоновское движение, поскольку неточности здесь подрывают реалистичность видео, созданных ИИ.
Тем не менее, всё больше работ направлено на ключевую слабость LDM: ограниченную способность создавать точные отражения.

Из статьи января 2025 года 'Отражение реальности: Обеспечение диффузионных моделей для создания точных зеркальных отражений', примеры 'ошибок отражения' в сравнении с подходом авторов. Источник: https://arxiv.org/pdf/2409.14677
Эта проблема, также распространённая в CGI и видеоиграх, решается с помощью алгоритмов трассировки лучей, которые моделируют взаимодействие света с поверхностями, создавая реалистичные отражения, преломления и тени.
Однако каждый дополнительный отскок луча света значительно увеличивает вычислительные затраты, вынуждая приложения реального времени балансировать между задержкой и точностью, ограничивая количество отскоков.
Виртуальный световой луч в 3D-сценарии (CGI), использующий технологии 1960-х годов, усовершенствованные в период между 'Трон' (1982) и 'Парк Юрского периода' (1993). Источник: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing
Например, рендеринг хромированного чайника перед зеркалом включает многократные отскоки лучей света, создавая почти бесконечные циклы с минимальной визуальной пользой. Обычно двух–трёх отскоков достаточно для заметных отражений, так как один отскок даёт тёмное зеркало.
Каждый дополнительный отскок удваивает время рендеринга, делая эффективную обработку отражений критически важной для улучшения визуальных эффектов с трассировкой лучей.
Отражения жизненно важны для фотореализма в более тонких случаях, таких как мокрые городские улицы, отражения в витринах магазинов или очках персонажей, где объекты и окружающая среда должны отображаться точно.

Двойное отражение, созданное с помощью традиционного композинга для сцены в 'Матрице' (1999).
Проблемы в визуализации
До появления диффузионных моделей такие фреймворки, как Neural Radiance Fields (NeRF) и более новые подходы, такие как Gaussian Splatting, испытывали трудности с естественным изображением отражений.
Проект REF2-NeRF предложил метод на основе NeRF для сцен с стеклянными витринами, моделирующий преломление и отражение с учётом перспективы зрителя. Это позволило оценить стеклянные поверхности и разделить прямой и отражённый свет.

Примеры из статьи Ref2Nerf. Источник: https://arxiv.org/pdf/2311.17116
Другие решения для NeRF, ориентированные на отражения, включают NeRFReN, Reflecting Reality и проект Meta 2024 года Planar Reflection-Aware Neural Radiance Fields.
Для Gaussian Splatting такие проекты, как Mirror-3DGS, Reflective Gaussian Splatting и RefGaussian, решали проблемы с отражениями, тогда как проект Nero 2023 года представил уникальный метод для нейронных представлений.
Прорыв MirrorVerse
Обучение диффузионных моделей логике отражений сложнее, чем в структурных методах, таких как Gaussian Splatting или NeRF. Надёжное отражение в диффузионных моделях зависит от разнообразных высококачественных данных для обучения в различных сценариях.
Традиционно добавление таких поведений включает LoRA или тонкую настройку, но они искажают результаты или создают инструменты, специфичные для модели, несовместимые с исходной моделью.
Улучшение диффузионных моделей требует данных для обучения, акцентирующих физику отражений. Однако создание гипермасштабных наборов данных для каждой слабости дорого и непрактично.
Тем не менее, появляются решения, такие как проект MirrorVerse из Индии, который предлагает улучшенный набор данных и метод обучения для повышения точности отражений в диффузионных моделях.

Справа результаты MirrorVerse в сравнении с двумя предыдущими подходами (средние столбцы). Источник: https://arxiv.org/pdf/2504.15397
Как показано выше, MirrorVerse улучшает недавние достижения, но не является безупречным.
На верхнем правом изображении керамические кувшины слегка смещены, а на нижнем изображении появляется ошибочное отражение чашки, противоречащее естественным углам отражения.
Мы рассмотрим этот метод не как окончательное решение, а чтобы подчеркнуть сохраняющиеся проблемы, с которыми сталкиваются диффузионные модели в статических и видеоформатах, где данные об отражениях часто привязаны к конкретным сценариям.
Таким образом, LDM могут отставать от NeRF, Gaussian Splatting и традиционного CGI по точности отражений.
Статья, MirrorVerse: Доведение диффузионных моделей до реалистичного отражения мира, подготовлена исследователями из Vision and AI Lab, IISc Bangalore, и Samsung R&D Institute, Bangalore, с проектной страницей, набором данных на Hugging Face и кодом на GitHub.
Методология
Исследователи подчёркивают трудности, с которыми сталкиваются модели, такие как Stable Diffusion и Flux, при работе с запросами, связанными с отражениями, как показано ниже:

Из статьи: Ведущие модели преобразования текста в изображение, SD3.5 и Flux, испытывают трудности с согласованными и геометрически точными отражениями.
Команда разработала MirrorFusion 2.0, модель на основе диффузии для повышения фотореализма и геометрической точности зеркальных отражений. Она обучалась на наборе данных MirrorGen2, разработанном для решения проблем обобщения.
MirrorGen2 включает случайное позиционирование объектов, случайные вращения и явное закрепление объектов для обеспечения правдоподобных отражений при различных размещениях объектов.

Схема синтетических данных MirrorVerse: случайное позиционирование, вращение и закрепление через 3D-Positioner, с парным подбором объектов для реалистичных пространственных взаимодействий.
MirrorGen2 включает сцены с парным расположением объектов для лучшей обработки окклюзий и сложных пространственных конфигураций в отражающих настройках.
В статье отмечается:
‘Категории подбираются для семантической согласованности, например, стул с столом. После размещения основного объекта добавляется второстепенный без пересечения, обеспечивая чёткие пространственные области.’
Для закрепления объектов авторы обеспечили их привязку к земле, избегая неестественного 'плавания' в синтетических данных.
Поскольку новизна статьи обусловлена инновациями в наборе данных, мы рассмотрим это далее.
Данные и тесты
SynMirrorV2
Набор данных SynMirrorV2 повышает разнообразие данных для обучения отражений, используя 3D-объекты из Objaverse и Amazon Berkeley Objects (ABO), отфильтрованные через OBJECT 3DIT и V1 MirrorFusion, что дало 66,062 высококачественных объекта.

Примеры из набора данных Objaverse, использованные для курированного набора данных. Источник: https://arxiv.org/pdf/2212.08051
Сцены создавались с текстурированными полами из CC-Textures и HDRI-фонами из PolyHaven, используя полноразмерные или прямоугольные зеркала. Освещение обеспечивала лампа с углом 45 градусов. Объекты масштабировались, позиционировались через пересечение зеркала и камеры и случайным образом вращались по оси y, с закреплением для избежания артефактов плавания.
Сцены с несколькими объектами использовали 3,140 семантически согласованных пар из ABO, избегая пересечений для захвата различных окклюзий и глубины.

Рендеринг сцен из набора данных с несколькими объектами, с демонстрацией сегментации и карт глубины.
Процесс обучения
Трёхэтапный процесс обучения по программе curriculum learning обучал MirrorFusion 2.0 для устойчивого обобщения в реальных условиях.
Этап 1 инициализировал веса из Stable Diffusion v1.5, с тонкой настройкой на однообъектной части SynMirrorV2 в течение 40,000 итераций, сохраняя активными ветви обусловливания и генерации.
Этап 2 проводил тонкую настройку в течение 10,000 итераций на многообъектной части SynMirrorV2 для обработки окклюзий и сложных сцен.
Этап 3 добавил 10,000 итераций с реальными данными набора MSD, используя карты глубины Matterport3D.

Примеры из набора данных MSD с картами глубины и сегментации. Источник: https://arxiv.org/pdf/1908.09101
Текстовые подсказки опускались в 20% случаев для приоритета информации о глубине. Обучение проводилось на четырёх GPU NVIDIA A100, с шагом обучения 1e-5, размером пакета 4 на GPU и оптимизатором AdamW.
Этот прогрессивный процесс обучения переходил от простых синтетических сцен к сложным реальным для лучшей переносимости.
Тестирование
MirrorFusion 2.0 тестировалась против базовой модели MirrorFusion на MirrorBenchV2, охватывая одно- и многообъектные сцены, с качественными тестами на наборах данных MSD и Google Scanned Objects (GSO).
Оценка проводилась на 2,991 однообъектной и 300 двухобъектных сценах, измеряя PSNR, SSIM и LPIPS для качества отражений и CLIP для соответствия подсказкам. Изображения генерировались с четырьмя сидами, выбирая лучший результат по SSIM.

Слева: Качество отражений одного объекта на MirrorBenchV2, MirrorFusion 2.0 превзошла базовую модель. Справа: Качество отражений нескольких объектов, обучение на нескольких объектах улучшило результаты.
Авторы отмечают:
‘Наш метод превосходит базовую модель, а тонкая настройка на нескольких объектах улучшает результаты в сложных сценах.’
Качественные тесты подчеркнули улучшения MirrorFusion 2.0:

Сравнение на MirrorBenchV2: Базовая модель показывает неверную ориентацию стула и искажённые отражения; MirrorFusion 2.0 рендерит точно.
Результаты на наборе данных GSO:

Сравнение на GSO: Базовая модель искажает структуру объектов; MirrorFusion 2.0 сохраняет геометрию, цвет и детали.
Авторы комментируют:
‘MirrorFusion 2.0 точно отражает детали, такие как ручки ящиков, тогда как базовая модель выдаёт неправдоподобные результаты.’
Результаты на реальном наборе данных MSD:

Результаты MSD: MirrorFusion 2.0, тонко настроенная на MSD, точно фиксирует сложные сцены с нагромождёнными объектами и несколькими зеркалами.
Тонкая настройка на MSD улучшила способность MirrorFusion 2.0 обрабатывать сложные реальные сцены, повышая согласованность отражений.
Исследование пользователей показало, что 84% предпочли результаты MirrorFusion 2.0.

Результаты исследования пользователей.
Заключение
Хотя MirrorFusion 2.0 знаменует прогресс, базовый уровень точности отражений в диффузионных моделях остаётся низким, что делает даже скромные улучшения заметными. Архитектура диффузионных моделей испытывает трудности с согласованной физикой, и добавление данных, как здесь, является стандартным, но ограниченным решением.
Будущие наборы данных с лучшим распределением данных об отражениях могут улучшить результаты, но это относится ко многим слабостям LDM. Приоритизация проблем для решения остаётся вызовом.
Впервые опубликовано в понедельник, 28 апреля 2025 года












