엔비디아, 단일 이미지로 방대한 3D 장면을 생성하는 ‘라이라 2.0’ 공개

2026년 4월 16일, 엔비디아(NVIDIA) 연구팀은 3D 장면 생성 시스템인 ‘Lyra 2.0’을 공식 출시했습니다. 이 기술은 단 한 장의 사진만으로 방대하고 일관성 높은 가상 환경을 구축하여, 긴 카메라 이동 경로에서 발생하는 이미지 왜곡 문제를 효과적으로 해결합니다. 체화형 AI 훈련에 대한 수요가 증가함에 따라, Lyra 2.0은 AI가 3D 공간을 이해하고 실시간으로 환경을 시뮬레이션하는 능력에 있어 중요한 돌파구를 마련했습니다.
기술적으로 Lyra2.0은 단일 이미지에서 최대 90미터에 이르는 3D 환경을 생성할 수 있습니다. 기존 비디오 모델에서 발생하는 '기억 상실'로 인한 공간 왜곡과 오류 누적을 해결하기 위해 연구진은 두 가지 핵심 혁신 기술을 도입했습니다. 이 시스템은 각 프레임의 3D 기하학적 데이터를 실시간으로 저장하여, 카메라가 이전 위치를 재방문할 때 환경의 일관성을 보장합니다. 또한 결함이 있는 출력 데이터로 훈련함으로써 모델이 자체 수정 능력을 학습할 수 있도록 합니다. 벤치마크 테스트 결과, Lyra2.0은 GEN3C 및 Yume-1.5를 포함한 6개의 경쟁 모델보다 이미지 품질과 카메라 제어 측면에서 우수한 성능을 보였으며, 고속 버전은 생성 효율을 13배 향상시켰습니다.
이제 Lyra2.0은 Nvidia Isaac Sim과 같은 물리 엔진과 원활하게 통합되어, 생성된 3D 장면을 메쉬 모델로 직접 내보낼 수 있습니다. 이러한 폐쇄형 워크플로를 통해 로봇은 AI가 생성한 환경 내에서 효율적인 시뮬레이션 훈련을 수행할 수 있어, 대규모 실세계 3D 데이터 수집의 필요성을 획기적으로 줄여줍니다. 현재 정적 장면으로 제한되어 있지만, Lyra2.0의 생성 규모와 안정성 측면에서의 발전은 자율 주행 및 범용 로봇(AGI)의 물리적 지각 능력을 향상시키기 위한 더욱 견고하고 창의적인 인프라를 제공합니다.
관련 기사
중국 사이버공간관리국은 AI가 생성한 영상과 허구적인 숏폼 영상에 태그를 달도록 의무화했다
중국 사이버공간관리국은 숏폼 동영상 콘텐츠 표기를 표준화하기 위한 포괄적인 계획을 발표했으며, 플랫폼들이 “AI 생성 콘텐츠”를 포함한 6가지 필수 태그를 제공하도록 의무화함으로써 숏폼 동영상 규제에 있어 투명성 확보가 필수적인 새로운 시대를 열었다.콘텐츠 출처가 불분명하거나 사실과 허구를 구분하기 어려운 문제 등을 해결하기 위해, 규제 당국은 도우인(Do
텍스트 번역으로 유명한 DeepL이 이제 음성 번역 시장에 진출한다
텍스트 기반 도구로 잘 알려진 번역 기업 DeepL이 오늘, 맞춤형 애플리케이션을 통해 현장 근무자들을 위한 회의, 모바일 및 웹 대화, 그룹 토론 등의 상황을 지원하는 음성-음성 번역 제품군을 출시했습니다. 또한 이 회사는 외부 개발자와 기업들이 콜센터와 같은 맞춤형 사용 사례를 위해 DeepL의 기술을 기반으로 서비스를 구축할 수 있도록 지원하는 API
탈라트의 AI 회의록은 클라우드가 아닌 사용자의 기기에 저장됩니다
2억 5천만 달러의 가치를 인정받은 AI 기반 필기 앱 ‘그라놀라(Granola)’는 기술 창업자들과 벤처 투자자들 사이에서 큰 주목을 받고 있다. 하지만 한 개발자는 구독료 없이 일회성 결제만으로 이용할 수 있는, 더 높은 프라이버시를 보장하는 완전한 로컬형 대안에 대한 수요가 있다고 판단했다. 이러한 비전이 새로운 맥 앱 ‘탈라트(Talat)’의 탄생으
관련 특별 주제 추천
의견 (0)
0/500

2026년 4월 16일, 엔비디아(NVIDIA) 연구팀은 3D 장면 생성 시스템인 ‘Lyra 2.0’을 공식 출시했습니다. 이 기술은 단 한 장의 사진만으로 방대하고 일관성 높은 가상 환경을 구축하여, 긴 카메라 이동 경로에서 발생하는 이미지 왜곡 문제를 효과적으로 해결합니다. 체화형 AI 훈련에 대한 수요가 증가함에 따라, Lyra 2.0은 AI가 3D 공간을 이해하고 실시간으로 환경을 시뮬레이션하는 능력에 있어 중요한 돌파구를 마련했습니다.
기술적으로 Lyra2.0은 단일 이미지에서 최대 90미터에 이르는 3D 환경을 생성할 수 있습니다. 기존 비디오 모델에서 발생하는 '기억 상실'로 인한 공간 왜곡과 오류 누적을 해결하기 위해 연구진은 두 가지 핵심 혁신 기술을 도입했습니다. 이 시스템은 각 프레임의 3D 기하학적 데이터를 실시간으로 저장하여, 카메라가 이전 위치를 재방문할 때 환경의 일관성을 보장합니다. 또한 결함이 있는 출력 데이터로 훈련함으로써 모델이 자체 수정 능력을 학습할 수 있도록 합니다. 벤치마크 테스트 결과, Lyra2.0은 GEN3C 및 Yume-1.5를 포함한 6개의 경쟁 모델보다 이미지 품질과 카메라 제어 측면에서 우수한 성능을 보였으며, 고속 버전은 생성 효율을 13배 향상시켰습니다.
이제 Lyra2.0은 Nvidia Isaac Sim과 같은 물리 엔진과 원활하게 통합되어, 생성된 3D 장면을 메쉬 모델로 직접 내보낼 수 있습니다. 이러한 폐쇄형 워크플로를 통해 로봇은 AI가 생성한 환경 내에서 효율적인 시뮬레이션 훈련을 수행할 수 있어, 대규모 실세계 3D 데이터 수집의 필요성을 획기적으로 줄여줍니다. 현재 정적 장면으로 제한되어 있지만, Lyra2.0의 생성 규모와 안정성 측면에서의 발전은 자율 주행 및 범용 로봇(AGI)의 물리적 지각 능력을 향상시키기 위한 더욱 견고하고 창의적인 인프라를 제공합니다.
중국 사이버공간관리국은 AI가 생성한 영상과 허구적인 숏폼 영상에 태그를 달도록 의무화했다
중국 사이버공간관리국은 숏폼 동영상 콘텐츠 표기를 표준화하기 위한 포괄적인 계획을 발표했으며, 플랫폼들이 “AI 생성 콘텐츠”를 포함한 6가지 필수 태그를 제공하도록 의무화함으로써 숏폼 동영상 규제에 있어 투명성 확보가 필수적인 새로운 시대를 열었다.콘텐츠 출처가 불분명하거나 사실과 허구를 구분하기 어려운 문제 등을 해결하기 위해, 규제 당국은 도우인(Do
텍스트 번역으로 유명한 DeepL이 이제 음성 번역 시장에 진출한다
텍스트 기반 도구로 잘 알려진 번역 기업 DeepL이 오늘, 맞춤형 애플리케이션을 통해 현장 근무자들을 위한 회의, 모바일 및 웹 대화, 그룹 토론 등의 상황을 지원하는 음성-음성 번역 제품군을 출시했습니다. 또한 이 회사는 외부 개발자와 기업들이 콜센터와 같은 맞춤형 사용 사례를 위해 DeepL의 기술을 기반으로 서비스를 구축할 수 있도록 지원하는 API
탈라트의 AI 회의록은 클라우드가 아닌 사용자의 기기에 저장됩니다
2억 5천만 달러의 가치를 인정받은 AI 기반 필기 앱 ‘그라놀라(Granola)’는 기술 창업자들과 벤처 투자자들 사이에서 큰 주목을 받고 있다. 하지만 한 개발자는 구독료 없이 일회성 결제만으로 이용할 수 있는, 더 높은 프라이버시를 보장하는 완전한 로컬형 대안에 대한 수요가 있다고 판단했다. 이러한 비전이 새로운 맥 앱 ‘탈라트(Talat)’의 탄생으





집






