구글의 ‘제미니 옴니(Gemini Omni)’는 이미지, 오디오, 텍스트를 바탕으로 동영상을 생성합니다
3년 전, 구글은 텍스트, 이미지, 오디오, 비디오로 훈련된 통합 신경망으로, 이러한 모든 형식의 콘텐츠를 생성할 수 있는 다중 모달 대규모 언어 모델을 개발하기 위해 ‘제미니(Gemini)’를 선보였습니다.
오늘 열린 구글 I/O 개발자 컨퍼런스에서 구글은 새로운 다중 모달 모델 제품군인 '제미니 옴니(Gemini Omni)'를 통해 이 비전을 한 단계 더 발전시켰습니다. 순다르 피차이 구글 CEO는 옴니가 사용자들이 "어떤 입력 자료로든 무엇이든 만들 수 있게 해줄 것"이라고 밝혔습니다.
옴니의 초기 초점은 비디오에 맞춰져 있습니다. 이제 사용자는 이미지, 오디오, 비디오, 텍스트를 결합할 수 있습니다. 옴니는 단순히 이러한 요소들을 이어 붙이는 대신, 모든 모달리티를 지능적으로 종합하여 일관성 있는 결과물을 생성합니다. 이를 통해 물리학, 문화, 역사, 과학에 대한 이해를 보여주는 고품질 비디오가 만들어집니다.
또한 옴니는 구글의 '나노 바나나(Nano Banana)' 도구와 유사하게, 사용자가 간단한 텍스트 명령어로 사진을 편집할 수 있게 하여 복잡한 소프트웨어가 필요 없도록 합니다.
구글은 이미 텍스트와 이미지를 동영상으로 변환하고 아바타를 연출 및 맞춤 설정할 수 있는 전용 동영상 모델인 'Veo'를 제공하고 있습니다. 그러나 구글 딥마인드(Google DeepMind)의 제품 관리 이사인 니콜 브리흐토바(Nicole Brichtova)는 이번 출시가 단순한 Veo 업데이트 그 이상임을 강조했습니다. "이는 제미니(Gemini)의 지능과 우리 미디어 모델의 렌더링 능력을 융합하는 다음 단계입니다."
월요일 열린 미디어 브리핑에서 딥마인드의 최고 기술 책임자 코레이 카부쿠쿠올루는 다음과 같은 예를 제시했습니다. "단백질 접힘 과정을 설명하는 클레이 애니메이션"이라는 프롬프트를 입력하자, 옴니는 즉시 "단백질은 아미노산 사슬로 시작됩니다. 이들은 알파 나선과 베타 시트라고 불리는 평평한 부분 같은 구조로 접히며, 결국 정밀한 3차원 형태를 형성합니다"라고 설명하는 내레이션이 포함된 스톱모션 영상을 생성했습니다.
옴니(Omni)에 대한 장기적인 비전은 더 광범위하며, 오디오에서 이미지를 생성하거나 비디오에서 오디오를 생성하는 등의 기능을 포함합니다.
피차이는 브리핑에서 "우리가 처음 제미니(Gemini)를 발표했을 때, 이는 우리의 첫 번째 네이티브 멀티모달 AI 모델이었습니다"라고 언급했다. "우리는 텍스트, 코드, 오디오, 이미지, 비디오를 조합하여 훈련시키면 세상에 대한 더 깊은 이해로 이어질 것임을 알고 있었습니다. 월드 모델을 통해 AI는 텍스트 예측에서 현실 시뮬레이션으로 진화하고 있습니다. 제미니 옴니(Gemini Omni)는 그 방향으로 나아가는 다음 단계입니다."
이번 출시의 일환으로, 사용자들은 자신의 디지털 아바타가 등장하는 동영상을 제작할 수도 있게 됩니다. 이는 OpenAI가 현재 서비스를 중단한 Sora 앱의 Cameos 기능을 통해 대중화된 기능입니다. 브리흐토바에 따르면, 딥페이크를 방지하기 위해 사용자는 일련의 숫자를 말하며 자신의 모습을 녹화하는 전용 온보딩 절차를 완료해야 합니다. 이후 아바타는 향후 사용을 위해 저장됩니다.
또한, 옴니로 제작된 모든 동영상에는 구글의 SynthID 디지털 워터마크가 포함되므로, 사용자는 해당 콘텐츠가 제미니 제품으로 생성되었는지 확인할 수 있습니다.
이 제품군의 첫 번째 모델은 '제미니 옴니 플래시(Gemini Omni Flash)'로, 오늘 제미니 앱, 유튜브 숏츠(YouTube Shorts), AI 크리에이티브 스튜디오 '플로우(Flow)'를 통해 출시된다. 플래시는 10초 분량의 동영상을 생성할 수 있다. 브리흐토바는 이 재생 시간이 모델의 한계 때문이 아니라, 현재 대부분의 사용자가 짧은 클립을 선호한다는 점을 고려해 접근성을 넓히기 위한 전략적 결정이라고 설명했다. 장편 동영상 지원은 가까운 시일 내에 계획되어 있다.
구글은 옴니 플래시를 주로 소비자용 도구로 포지셔닝하는 것으로 보입니다. 테크크런치와의 통화에서 브리흐토바와 딥마인드 연구 엔지니어 게이브 바스-마론은 아바타 활용 사례를 개인적인 용도로 설명했습니다. 예를 들어, 자신이 상을 받거나 달을 방문하는 영상을 만들거나, 휴가 영상 배경에서 지나가던 사람을 제거하는 것 등이 있습니다.
바스-마론은 이를 간결하게 요약했다. "이것들은 마치 개인화된 밈과 같습니다."
"우리는 확실히 소비자가 쉽게 사용할 수 있도록 만드는 데 집중했습니다,"라고 브리흐토바는 말했습니다. "많은 동영상 모델이 주류 소비자 시장으로 성공적으로 진출하지 못했기 때문에, 이것이 바로 우리가 시도하는 바입니다."
이러한 사용 편의성에는 한 가지 주의할 점이 있습니다. 브리흐토바와 바스-마론은 편집 프롬프트가 매우 구체적이어야 한다고 지적했습니다. 그렇지 않으면 옴니(Omni)가 과도하게 편집하거나 사용자가 유지하고자 했던 요소를 의도치 않게 변경할 수 있는데, 이는 나노 바나나(Nano Banana) 사용자들도 겪는 문제입니다.

이미지 출처:Google
Omni가 당장 소비자 시장에 초점을 맞추고 있음에도 불구하고, 기업 및 창작 분야에서의 잠재력은 분명합니다. 구글은 앞으로 몇 주 내에 API를 통해 Omni를 제공할 예정입니다. 이미 Shorts에서 사용 가능한 이 아바타 생성 도구는 콘텐츠 제작자들 사이에서 인기를 끌 것으로 예상됩니다. 더 넓게 보면, 엔드투엔드(end-to-end) 멀티모달 워크플로는 광고 및 영화 제작 분야에 혁명을 일으킬 수 있습니다.
스타트업 루마 AI(Luma AI)는 자체 개발한 '통합' 모델을 기반으로 한 유사한 에이전트형 도구를 개발 중이며, 이 도구는 브리프와 제품 이미지만으로도 전체 광고 캠페인을 생성할 수 있다.
"저희는 사실 이 모델의 텍스트 렌더링 기능을 꽤 자랑스럽게 생각하는데, 이는 광고와 같은 분야에 매우 유용합니다,"라고 브리흐토바는 말했다. "제품 배치나 심지어 슬로건 하나만 필요하더라도 정확성은 매우 중요합니다... 영화 제작자나 다른 크리에이터들도 이 모델을 채택할 것으로 확신합니다."
더 전문적인 사용 사례에는 모든 Omni 작업에서 뛰어난 성능을 제공하도록 설계된 곧 출시될 Omni Pro 모델이 더 적합할 수 있습니다. 구글은 아직 Pro 버전의 출시일을 발표하지 않았지만, 브리흐토바는 "Flash를 훨씬 뛰어넘는 성능의 획기적인 도약을 이룰 때" 출시될 것이라고 밝혔습니다.
관련 기사
구글 포토, AI로 영화 ‘클루리스’의 상징적인 옷장을 재현하다
구글 포토는 수요일, 곧 출시될 새로운 AI 기반 기능을 발표했습니다. 이 기능은 사용자의 옷 사진을 디지털 옷장으로 변환해 주어, 새로운 코디를 구성하고 가상으로 입어볼 수도 있게 해줍니다. 이 개념은 영화 ‘클루리스’에서 셰어가 입을 옷을 고르며 수많은 의상들을 둘러보던 그 상징적인 가상 옷장에서 영감을 받은 것이 분명합니다.구글은 이 기능이 AI 기술
Google I/O 2026, Gmail 수신함과의 음성 상호작용 기능 공개
구글은 계속해서 AI를 사용자의 수신함에 통합하고 있습니다. 화요일 열린 IO 2026 개발자 컨퍼런스에서 구글은 대화형 AI를 통해 Gmail의 ‘AI 수신함’ 기능을 확장했으며, 이를 통해 사용자는 검색어에만 의존하지 않고 수신함의 내용에 대해 직접 질문할 수 있게 되었습니다.구글에 따르면, 'Gmail Live'라는 이름의 이 제미니(Gemini) A
구글, 인도에서 크롬용 제미니 서비스 출시
수요일, 구글은 크롬용 제미니(Gemini) 통합 기능을 인도, 캐나다, 뉴질랜드를 포함한 새로운 지역으로 확대한다고 발표했습니다. 이번 업데이트를 통해 데스크톱 사용자는 사이드바를 통해 제미니에 접속할 수 있게 되며, 여기서 구글의 AI 챗봇에게 화면상의 콘텐츠에 대해 질문하거나, 지메일(Gmail), 킵(Keep), 드라이브(Drive), 유튜브(You
관련 특별 주제 추천
의견 (0)
0/500
3년 전, 구글은 텍스트, 이미지, 오디오, 비디오로 훈련된 통합 신경망으로, 이러한 모든 형식의 콘텐츠를 생성할 수 있는 다중 모달 대규모 언어 모델을 개발하기 위해 ‘제미니(Gemini)’를 선보였습니다.
오늘 열린 구글 I/O 개발자 컨퍼런스에서 구글은 새로운 다중 모달 모델 제품군인 '제미니 옴니(Gemini Omni)'를 통해 이 비전을 한 단계 더 발전시켰습니다. 순다르 피차이 구글 CEO는 옴니가 사용자들이 "어떤 입력 자료로든 무엇이든 만들 수 있게 해줄 것"이라고 밝혔습니다.
옴니의 초기 초점은 비디오에 맞춰져 있습니다. 이제 사용자는 이미지, 오디오, 비디오, 텍스트를 결합할 수 있습니다. 옴니는 단순히 이러한 요소들을 이어 붙이는 대신, 모든 모달리티를 지능적으로 종합하여 일관성 있는 결과물을 생성합니다. 이를 통해 물리학, 문화, 역사, 과학에 대한 이해를 보여주는 고품질 비디오가 만들어집니다.
또한 옴니는 구글의 '나노 바나나(Nano Banana)' 도구와 유사하게, 사용자가 간단한 텍스트 명령어로 사진을 편집할 수 있게 하여 복잡한 소프트웨어가 필요 없도록 합니다.
구글은 이미 텍스트와 이미지를 동영상으로 변환하고 아바타를 연출 및 맞춤 설정할 수 있는 전용 동영상 모델인 'Veo'를 제공하고 있습니다. 그러나 구글 딥마인드(Google DeepMind)의 제품 관리 이사인 니콜 브리흐토바(Nicole Brichtova)는 이번 출시가 단순한 Veo 업데이트 그 이상임을 강조했습니다. "이는 제미니(Gemini)의 지능과 우리 미디어 모델의 렌더링 능력을 융합하는 다음 단계입니다."
월요일 열린 미디어 브리핑에서 딥마인드의 최고 기술 책임자 코레이 카부쿠쿠올루는 다음과 같은 예를 제시했습니다. "단백질 접힘 과정을 설명하는 클레이 애니메이션"이라는 프롬프트를 입력하자, 옴니는 즉시 "단백질은 아미노산 사슬로 시작됩니다. 이들은 알파 나선과 베타 시트라고 불리는 평평한 부분 같은 구조로 접히며, 결국 정밀한 3차원 형태를 형성합니다"라고 설명하는 내레이션이 포함된 스톱모션 영상을 생성했습니다.
옴니(Omni)에 대한 장기적인 비전은 더 광범위하며, 오디오에서 이미지를 생성하거나 비디오에서 오디오를 생성하는 등의 기능을 포함합니다.
피차이는 브리핑에서 "우리가 처음 제미니(Gemini)를 발표했을 때, 이는 우리의 첫 번째 네이티브 멀티모달 AI 모델이었습니다"라고 언급했다. "우리는 텍스트, 코드, 오디오, 이미지, 비디오를 조합하여 훈련시키면 세상에 대한 더 깊은 이해로 이어질 것임을 알고 있었습니다. 월드 모델을 통해 AI는 텍스트 예측에서 현실 시뮬레이션으로 진화하고 있습니다. 제미니 옴니(Gemini Omni)는 그 방향으로 나아가는 다음 단계입니다."
이번 출시의 일환으로, 사용자들은 자신의 디지털 아바타가 등장하는 동영상을 제작할 수도 있게 됩니다. 이는 OpenAI가 현재 서비스를 중단한 Sora 앱의 Cameos 기능을 통해 대중화된 기능입니다. 브리흐토바에 따르면, 딥페이크를 방지하기 위해 사용자는 일련의 숫자를 말하며 자신의 모습을 녹화하는 전용 온보딩 절차를 완료해야 합니다. 이후 아바타는 향후 사용을 위해 저장됩니다.
또한, 옴니로 제작된 모든 동영상에는 구글의 SynthID 디지털 워터마크가 포함되므로, 사용자는 해당 콘텐츠가 제미니 제품으로 생성되었는지 확인할 수 있습니다.
이 제품군의 첫 번째 모델은 '제미니 옴니 플래시(Gemini Omni Flash)'로, 오늘 제미니 앱, 유튜브 숏츠(YouTube Shorts), AI 크리에이티브 스튜디오 '플로우(Flow)'를 통해 출시된다. 플래시는 10초 분량의 동영상을 생성할 수 있다. 브리흐토바는 이 재생 시간이 모델의 한계 때문이 아니라, 현재 대부분의 사용자가 짧은 클립을 선호한다는 점을 고려해 접근성을 넓히기 위한 전략적 결정이라고 설명했다. 장편 동영상 지원은 가까운 시일 내에 계획되어 있다.
구글은 옴니 플래시를 주로 소비자용 도구로 포지셔닝하는 것으로 보입니다. 테크크런치와의 통화에서 브리흐토바와 딥마인드 연구 엔지니어 게이브 바스-마론은 아바타 활용 사례를 개인적인 용도로 설명했습니다. 예를 들어, 자신이 상을 받거나 달을 방문하는 영상을 만들거나, 휴가 영상 배경에서 지나가던 사람을 제거하는 것 등이 있습니다.
바스-마론은 이를 간결하게 요약했다. "이것들은 마치 개인화된 밈과 같습니다."
"우리는 확실히 소비자가 쉽게 사용할 수 있도록 만드는 데 집중했습니다,"라고 브리흐토바는 말했습니다. "많은 동영상 모델이 주류 소비자 시장으로 성공적으로 진출하지 못했기 때문에, 이것이 바로 우리가 시도하는 바입니다."
이러한 사용 편의성에는 한 가지 주의할 점이 있습니다. 브리흐토바와 바스-마론은 편집 프롬프트가 매우 구체적이어야 한다고 지적했습니다. 그렇지 않으면 옴니(Omni)가 과도하게 편집하거나 사용자가 유지하고자 했던 요소를 의도치 않게 변경할 수 있는데, 이는 나노 바나나(Nano Banana) 사용자들도 겪는 문제입니다.

이미지 출처:Google
Omni가 당장 소비자 시장에 초점을 맞추고 있음에도 불구하고, 기업 및 창작 분야에서의 잠재력은 분명합니다. 구글은 앞으로 몇 주 내에 API를 통해 Omni를 제공할 예정입니다. 이미 Shorts에서 사용 가능한 이 아바타 생성 도구는 콘텐츠 제작자들 사이에서 인기를 끌 것으로 예상됩니다. 더 넓게 보면, 엔드투엔드(end-to-end) 멀티모달 워크플로는 광고 및 영화 제작 분야에 혁명을 일으킬 수 있습니다.
스타트업 루마 AI(Luma AI)는 자체 개발한 '통합' 모델을 기반으로 한 유사한 에이전트형 도구를 개발 중이며, 이 도구는 브리프와 제품 이미지만으로도 전체 광고 캠페인을 생성할 수 있다.
"저희는 사실 이 모델의 텍스트 렌더링 기능을 꽤 자랑스럽게 생각하는데, 이는 광고와 같은 분야에 매우 유용합니다,"라고 브리흐토바는 말했다. "제품 배치나 심지어 슬로건 하나만 필요하더라도 정확성은 매우 중요합니다... 영화 제작자나 다른 크리에이터들도 이 모델을 채택할 것으로 확신합니다."
더 전문적인 사용 사례에는 모든 Omni 작업에서 뛰어난 성능을 제공하도록 설계된 곧 출시될 Omni Pro 모델이 더 적합할 수 있습니다. 구글은 아직 Pro 버전의 출시일을 발표하지 않았지만, 브리흐토바는 "Flash를 훨씬 뛰어넘는 성능의 획기적인 도약을 이룰 때" 출시될 것이라고 밝혔습니다.
구글 포토, AI로 영화 ‘클루리스’의 상징적인 옷장을 재현하다
구글 포토는 수요일, 곧 출시될 새로운 AI 기반 기능을 발표했습니다. 이 기능은 사용자의 옷 사진을 디지털 옷장으로 변환해 주어, 새로운 코디를 구성하고 가상으로 입어볼 수도 있게 해줍니다. 이 개념은 영화 ‘클루리스’에서 셰어가 입을 옷을 고르며 수많은 의상들을 둘러보던 그 상징적인 가상 옷장에서 영감을 받은 것이 분명합니다.구글은 이 기능이 AI 기술
Google I/O 2026, Gmail 수신함과의 음성 상호작용 기능 공개
구글은 계속해서 AI를 사용자의 수신함에 통합하고 있습니다. 화요일 열린 IO 2026 개발자 컨퍼런스에서 구글은 대화형 AI를 통해 Gmail의 ‘AI 수신함’ 기능을 확장했으며, 이를 통해 사용자는 검색어에만 의존하지 않고 수신함의 내용에 대해 직접 질문할 수 있게 되었습니다.구글에 따르면, 'Gmail Live'라는 이름의 이 제미니(Gemini) A
구글, 인도에서 크롬용 제미니 서비스 출시
수요일, 구글은 크롬용 제미니(Gemini) 통합 기능을 인도, 캐나다, 뉴질랜드를 포함한 새로운 지역으로 확대한다고 발표했습니다. 이번 업데이트를 통해 데스크톱 사용자는 사이드바를 통해 제미니에 접속할 수 있게 되며, 여기서 구글의 AI 챗봇에게 화면상의 콘텐츠에 대해 질문하거나, 지메일(Gmail), 킵(Keep), 드라이브(Drive), 유튜브(You





집






