옵션
뉴스
AI의 사실적인 거울 반사 렌더링 능력 향상

AI의 사실적인 거울 반사 렌더링 능력 향상

2025년 7월 24일
0

생성 AI가 대중의 관심을 끌기 시작한 이후, 컴퓨터 비전 연구자들은 물리 법칙을 이해하고 복제하는 모델 개발에 노력을 집중해 왔으며, 지난 5년 동안 특히 중력과 유체 역학 시뮬레이션을 해결하는 데 주력해 왔습니다.

2022년 이후 잠재 확산 모델(LDMs)이 생성 AI를 주도하면서, 물리 현상을 정확히 묘사하는 데 어려움을 겪고 있는 문제에 주목하게 되었습니다. 이 문제는 OpenAI의 Sora 비디오 모델과 최근 오픈 소스로 공개된 Hunyuan VideoWan 2.1 이후 더욱 주목받고 있습니다.

반사에 대한 어려움

LDM의 물리 이해를 개선하기 위한 연구는 주로 보행 시뮬레이션과 뉴턴 운동 같은 영역에 초점을 맞추었으며, 이곳에서의 부정확성은 AI 생성 비디오의 사실성을 떨어뜨립니다.

그러나 점점 더 많은 연구가 LDM의 주요 약점인 정확한 반사 생성 능력의 한계에 주목하고 있습니다.

2025년 1월 논문 'Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections'에서, '반사 실패' 사례와 연구자들의 접근 방식 예시. 출처: https://arxiv.org/pdf/2409.14677

2025년 1월 논문 ‘Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections’에서, ‘반사 실패’ 사례와 연구자들의 접근 방식. 출처: https://arxiv.org/pdf/2409.14677

이 문제는 CGI와 비디오 게임에서도 흔히 나타나며, 빛의 표면 상호작용을 시뮬레이션하기 위해 광선 추적 알고리즘에 의존하여 사실적인 반사, 굴절, 그림자를 생성합니다.

그러나 추가적인 광선 반사는 계산 요구를 크게 증가시키며, 실시간 애플리케이션은 지연과 정확성의 균형을 맞추기 위해 반사 횟수를 제한해야 합니다.

전통적인 3D 기반(CGI) 시나리오에서 가상으로 계산된 광선의 표현으로, 1960년대에 처음 개발된 기술과 원리를 사용하며, 1982-93년 사이(Tron [1982]과 Jurassic Park [1993] 사이)에 완성되었습니다. 출처: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

3D 기반(CGI) 시나리오에서 가상 광선으로, 1960년대 기술을 사용하며, ‘Tron’(1982)과 ‘Jurassic Park’(1993) 사이에 발전했습니다. 출처: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

예를 들어, 거울 앞의 크롬 주전자를 렌더링하려면 광선이 반복적으로 반사되며, 시각적 이점이 적은 거의 무한 루프를 생성합니다. 일반적으로 두세 번의 반사로 눈에 띄는 반사를 얻을 수 있으며, 단일 반사는 어두운 거울을 만듭니다.

추가 반사마다 렌더링 시간이 두 배로 늘어나므로, 광선 추적 시각을 개선하려면 효율적인 반사 처리가 중요합니다.

반사는 젖은 도시 거리, 상점 창문 반사, 캐릭터의 안경과 같은 미묘한 경우에서 포토리얼리즘에 필수적이며, 객체와 환경이 정확히 나타나야 합니다.

'The Matrix' (1999)의 상징적인 장면을 위해 전통적인 합성을 통해 구현된 이중 반사 시뮬레이션.

‘The Matrix’ (1999)의 장면을 위해 전통적인 합성을 통해 생성된 이중 반사.

시각적 도전 과제

확산 모델 이전에는 Neural Radiance Fields(NeRF)와 Gaussian Splatting 같은 새로운 접근법이 반사를 자연스럽게 묘사하는 데 어려움을 겪었습니다.

REF2-NeRF 프로젝트는 유리 케이스가 있는 장면에 대해 NeRF 기반 방법을 제안하여, 시청자 관점에 따라 굴절과 반사를 모델링했습니다. 이를 통해 유리 표면 추정과 직접 및 반사된 빛의 분리가 가능해졌습니다.

Ref2Nerf 논문의 예시. 출처: https://arxiv.org/pdf/2311.17116

Ref2Nerf 논문의 예시. 출처: https://arxiv.org/pdf/2311.17116

다른 반사 중심 NeRF 솔루션으로는 NeRFReN, Reflecting Reality, Meta의 2024년 Planar Reflection-Aware Neural Radiance Fields 프로젝트가 있습니다.

Gaussian Splatting의 경우, Mirror-3DGS, Reflective Gaussian Splatting, RefGaussian이 반사 문제를 다루었으며, 2023년 Nero 프로젝트는 신경 표현을 위한 독특한 방법을 도입했습니다.

MirrorVerse 돌파구

확산 모델에 반사 로직을 가르치는 것은 Gaussian Splatting이나 NeRF 같은 구조적 방법보다 더 어렵습니다. 확산 모델에서 신뢰할 수 있는 반사는 다양한 시나리오에 걸친 고품질의 훈련 데이터에 달려 있습니다.

전통적으로 이러한 동작을 추가하려면 LoRA나 미세 조정을 사용하지만, 이는 출력을 왜곡하거나 원래 모델과 호환되지 않는 모델별 도구를 생성합니다.

확산 모델을 개선하려면 반사 물리를 강조하는 훈련 데이터가 필요합니다. 그러나 모든 약점에 대해 초대규모 데이터셋을 큐레이션하는 것은 비용이 많이 들고 비현실적입니다.

그럼에도 불구하고, 인도의 MirrorVerse 프로젝트와 같이 개선된 데이터셋과 훈련 방법을 제공하여 확산 모델의 반사 정확도를 높이는 솔루션이 등장하고 있습니다.

가장 오른쪽은 MirrorVerse의 결과로, 두 개의 이전 접근법(중앙 두 열)과 비교. 출처: https://arxiv.org/pdf/2504.15397

가장 오른쪽은 MirrorVerse 결과로, 두 개의 이전 접근법(중앙 열)과 비교. 출처: https://arxiv.org/pdf/2504.15397

위에 보이는 바와 같이, MirrorVerse는 최근 노력에서 개선되었지만 완벽하지는 않습니다.

오른쪽 상단 이미지에서는 세라믹 항아리가 약간 정렬되지 않았으며, 하단 이미지에서는 자연스러운 반사 각도에 맞지 않는 잘못된 컵 반사가 나타납니다.

이 방법을 최종 솔루션으로 보지 않고, 확산 모델이 정적 및 비디오 형식에서 직면하는 지속적인 도전 과제를 강조하기 위해 살펴볼 것입니다. 여기서 반사 데이터는 종종 특정 시나리오에 묶여 있습니다.

따라서 LDM은 반사 정확도에서 NeRF, Gaussian Splatting, 전통적인 CGI에 뒤처질 수 있습니다.

MirrorVerse: Pushing Diffusion Models to Realistically Reflect the World 논문은 Vision and AI Lab, IISc Bangalore, Samsung R&D Institute, Bangalore의 연구자들로부터 나왔으며, 프로젝트 페이지, Hugging Face 데이터셋, GitHub 코드가 포함되어 있습니다.

방법론

연구자들은 Stable Diffusion과 Flux 같은 모델이 반사 기반 프롬프트에서 어려움을 겪는다고 강조했습니다. 아래에 보이는 바와 같습니다:

논문에서: 현재 최첨단 텍스트-이미지 모델, SD3.5와 Flux는 장면에서 반사를 생성하도록 요청받았을 때 일관되고 기하학적으로 정확한 반사를 생성하는 데 상당한 어려움을 보였습니다.

논문에서: 최상위 텍스트-이미지 모델, SD3.5와 Flux는 일관되고 기하학적으로 정확한 반사를 생성하는 데 어려움을 겪습니다.

팀은 거울 반사의 포토리얼리즘과 기하학적 정확성을 높이기 위해 확산 기반 모델인 MirrorFusion 2.0을 개발했습니다. 이는 일반화 문제를 해결하기 위해 설계된 MirrorGen2 데이터셋에서 훈련되었습니다.

MirrorGen2는 무작위 객체 배치, 무작위 회전, 명시적 객체 고정을 도입하여 다양한 객체 배치에서 타당한 반사를 보장합니다.

MirrorVerse의 합성 데이터 생성 스키마: 3D-Positioner를 사용하여 객체를 무작위로 배치, 회전, 고정하며 키 증강을 적용한 데이터셋 생성 파이프라인. 객체는 복잡한 공간 관계와 가림을 시뮬레이션하기 위해 의미적으로 일관된 조합으로 쌍을 이루며, 데이터셋이 다중 객체 장면에서 더 사실적인 상호작용을 포착할 수 있도록 합니다.

MirrorVerse의 합성 데이터 스키마: 3D-Positioner를 통해 무작위 배치, 회전, 고정으로 사실적인 공간 상호작용을 위한 쌍 객체.

MirrorGen2는 가림과 복잡한 공간 배치를 더 잘 처리하기 위해 쌍 객체 장면을 포함합니다.

논문은 다음과 같이 언급합니다:

‘의미적 일관성을 위해 카테고리가 쌍을 이루며, 예를 들어 의자와 테이블이 있습니다. 주 객체를 배치한 후, 중첩되지 않도록 보조 객체를 추가하여 별개의 공간 영역을 보장합니다.’

객체 고정을 위해, 저자들은 합성 데이터에서 부자연스러운 ‘떠 있음’을 피하기 위해 객체가 바닥에 고정되도록 했습니다.

데이터셋 혁신이 논문의 참신함을 이끌기 때문에, 다음으로 이를 다룹니다.

데이터와 테스트

SynMirrorV2

SynMirrorV2 데이터셋은 반사 훈련 데이터의 다양성을 강화하며, Objaverse와 Amazon Berkeley Objects(ABO)의 3D 객체를 사용하고, OBJECT 3DIT 및 V1 MirrorFusion 필터링을 통해 정제하여 66,062개의 고품질 객체를 생성했습니다.

새 시스템의 큐레이션된 데이터셋 생성에 사용된 Objaverse 데이터셋의 예시. 출처: https://arxiv.org/pdf/2212.08051

큐레이션된 데이터셋에 사용된 Objaverse 데이터셋 예시. 출처: https://arxiv.org/pdf/2212.08051

장면은 CC-Textures의 텍스처 바닥과 PolyHaven의 HDRI 배경을 사용해 제작되었으며, 전체 벽 또는 직사각형 거울을 사용했습니다. 조명은 45도 각도의 면광을 사용했습니다. 객체는 거울-카메라 프러스텀 교차를 통해 배치되고, y축에서 무작위로 회전되며, 떠 있는 아티팩트를 피하기 위해 고정되었습니다.

다중 객체 장면은 ABO에서 의미적으로 일관된 3,140개의 쌍을 사용하여, 다양한 가림과 깊이를 포착하기 위해 중첩을 피했습니다.

다중(두 개 이상) 객체를 포함한 저자 데이터셋의 렌더링 뷰 예시로, 아래에 객체 분할과 깊이 맵 시각화가 표시됩니다.

다중 객체 데이터셋의 렌더링 뷰로, 분할과 깊이 맵을 표시.

훈련 과정

세 단계 커리큘럼 학습 프로세스는 MirrorFusion 2.0을 견고한 실제 세계 일반화를 위해 훈련시켰습니다.

1단계는 Stable Diffusion v1.5에서 가중치를 초기화하고, SynMirrorV2의 단일 객체 분할에서 40,000번 반복으로 미세 조정하며, 조건부 및 생성 분기를 모두 활성 상태로 유지했습니다.

2단계는 가림과 복잡한 장면을 처리하기 위해 SynMirrorV2의 다중 객체 분할에서 10,000번 반복으로 미세 조정했습니다.

3단계는 Matterport3D 깊이 맵을 사용한 실제 세계 MSD 데이터셋 데이터로 10,000번 반복을 추가했습니다.

MSD 데이터셋의 예시로, 실제 세계 장면을 깊이 및 분할 맵으로 분석. 출처: https://arxiv.org/pdf/1908.09101

MSD 데이터셋 예시로, 깊이 및 분할 맵 포함. 출처: https://arxiv.org/pdf/1908.09101

텍스트 프롬프트는 깊이 정보 우선순위를 위해 20% 확률로 생략되었습니다. 훈련은 4개의 NVIDIA A100 GPU, 1e-5 학습률, GPU당 배치 크기 4, AdamW 최적화 프로그램을 사용했습니다.

이 점진적 훈련은 단순한 합성 장면에서 복잡한 실제 세계 장면으로 이동하여 더 나은 전이 가능성을 제공했습니다.

테스트

MirrorFusion 2.0은 MirrorBenchV2에서 단일 및 다중 객체 장면을 포함한 기준 MirrorFusion과 테스트되었으며, MSD 및 Google Scanned Objects(GSO) 데이터셋에서 정성적 테스트를 진행했습니다.

평가는 2,991개의 단일 객체와 300개의 두 객체 장면을 사용하며, 반사 품질을 위해 PSNR, SSIM, LPIPS를 측정하고, 프롬프트 정렬을 위해 CLIP을 사용했습니다. 이미지는 4개의 시드로 생성되었으며, 최고 SSIM 점수를 선택했습니다.

왼쪽: MirrorBenchV2 단일 객체 분할에서 단일 객체 반사 생성 품질에 대한 정량적 결과. MirrorFusion 2.0이 기준을 초과하며, 최고 결과는 굵은 글씨로 표시. 오른쪽: MirrorBenchV2 다중 객체 분할에서 다중 객체 반사 생성 품질에 대한 정량적 결과. 다중 객체로 훈련된 MirrorFusion 2.0이 훈련되지 않은 버전을 초과하며, 최고 결과는 굵은 글씨로 표시.

왼쪽: MirrorBenchV2 단일 객체 반사 품질, MirrorFusion 2.0이 기준 초과. 오른쪽: 다중 객체 반사 품질, 다중 객체 훈련이 결과 개선.

저자들은 다음과 같이 언급합니다:

‘우리 방법은 기준을 초과하며, 다중 객체 미세 조정은 복잡한 장면 결과를 향상시킵니다.’

정성적 테스트는 MirrorFusion 2.0의 개선을 강조했습니다:

MirrorBenchV2 비교: 기준은 정확한 반사와 공간 일관성을 유지하지 못해 잘못된 의자 방향과 다중 객체의 왜곡된 반사를 보였으며, (저자들은 주장) MirrorFusion 2.0은 의자와 소파를 정확한 위치, 방향, 구조로 렌더링합니다.

MirrorBenchV2 비교: 기준은 잘못된 의자 방향과 왜곡된 반사를 보이며, MirrorFusion 2.0은 정확히 렌더링.

기준은 객체 방향과 공간 아티팩트에서 어려움을 겪었으나, SynMirrorV2에서 훈련된 MirrorFusion 2.0은 정확한 위치와 사실적인 반사를 유지했습니다.

GSO 데이터셋 결과:

GSO 데이터셋 비교. 기준은 객체 구조를 잘못 표현하고 불완전하고 왜곡된 반사를 생성했으며, 저자들은 MirrorFusion 2.0이 분포 외 객체에서도 공간 무결성을 보존하고 정확한 기하학, 색상, 세부 사항을 생성한다고 주장합니다.

GSO 비교: 기준은 객체 구조 왜곡, MirrorFusion 2.0은 기하학, 색상, 세부 사항 보존.

저자들은 다음과 같이 언급합니다:

‘MirrorFusion 2.0은 서랍 손잡이 같은 세부 사항을 정확히 반사하며, 기준은 비현실적인 결과를 생성합니다.’

실제 세계 MSD 데이터셋 결과:

MirrorFusion, MirrorFusion 2.0, MSD 데이터셋에서 미세 조정된 MirrorFusion 2.0을 비교한 실제 세계 장면 결과. 저자들은 MirrorFusion 2.0이 테이블 위의 복잡한 객체와 3차원 환경 내 다중 거울의 존재를 포함하여 복잡한 장면 세부 사항을 더 정확히 포착한다고 주장합니다. 원본 논문의 결과 크기로 인해 여기에는 부분 결과만 표시되며, 전체 결과와 더 나은 해상도는 원본 논문을 참조하세요.

MSD 결과: MSD에서 미세 조정된 MirrorFusion 2.0은 복잡한 객체와 다중 거울이 있는 복잡한 장면을 정확히 포착.

MSD에서 미세 조정은 MirrorFusion 2.0의 복잡한 실제 세계 장면 처리 능력을 개선하여 반사 일관성을 높였습니다.

사용자 연구에서 84%가 MirrorFusion 2.0의 출력을 선호했습니다.

사용자 연구 결과.

사용자 연구 결과.

결론

MirrorFusion 2.0은 진전을 이루었지만, 확산 모델의 반사 정확도 기준은 여전히 낮아, 소폭의 개선도 주목할 만합니다. 확산 모델의 아키텍처는 일관된 물리 구현에 어려움을 겪으며, 여기서와 같이 데이터를 추가하는 것은 표준적이지만 제한적인 해결책입니다.

더 나은 반사 데이터 분포를 가진 미래 데이터셋은 결과를 개선할 수 있지만, 이는 많은 LDM 약점에 적용됩니다. 어떤 문제를 우선 해결할지 결정하는 것은 여전히 도전 과제입니다.

2025년 4월 28일 월요일에 첫 출판

관련 기사
AI로 강화된 TradingView 전략으로 향상된 정밀도 AI로 강화된 TradingView 전략으로 향상된 정밀도 빠르게 변화하는 거래 환경에서 효과적인 도구는 매우 중요합니다. 이 기사에서는 AI 지표를 활용한 간소화된 TradingView 전략을 소개하여 거래 정확성과 수익성을 높입니다. 우리는 Exit Willy Alerts와 Easy Entry/Exit Trend Colors를 탐구하며, 이 접근법을 거래 루틴에 통합하는 실질적인 단계를 제공합니다. 초보자와 전
AI로 독특한 로고 제작: 단계별 가이드 AI로 독특한 로고 제작: 단계별 가이드 전문 로고 디자인은 기업, 스타트업, 개인 브랜드에게 어려운 과제가 될 수 있습니다. 전통적인 방법은 종종 비용이 많이 드는 디자이너나 복잡한 소프트웨어를 필요로 합니다. 인공지능 덕분에 이제 누구나 쉽게 눈에 띄는 로고를 만들 수 있습니다. 이 가이드는 AI 로고 생성기를 사용하는 상세한 단계별 접근법을 제공하여, 디자인 전문 지식이 없어도 독특하고 영향
AI에 대한 의존이 비판적 사고를 약화시킬 수 있음: MIT 연구가 인지적 위험을 드러냄 AI에 대한 의존이 비판적 사고를 약화시킬 수 있음: MIT 연구가 인지적 위험을 드러냄 ChatGPT와 같은 AI 도구가 맞춤법 검사만큼 흔한 시대에, MIT 연구는 대형 언어 모델(LLMs)에 대한 의존도가 증가하면서 비판적 사고와 깊은 학습 능력을 미묘하게 약화시킬 수 있다고 경고합니다. MIT 미디어 랩 연구진이 4개월간 진행한 이 연구는 “인지적 부채”라는 개념을 소개하며 교육자, 학생, 기술 애호가들이 AI 의존도를 재고하도록 촉구합
의견 (0)
0/200
위로 돌아갑니다
OR