옵션
뉴스
구글의 ‘제미니 옴니(Gemini Omni)’는 이미지, 오디오, 텍스트를 바탕으로 동영상을 생성합니다

구글의 ‘제미니 옴니(Gemini Omni)’는 이미지, 오디오, 텍스트를 바탕으로 동영상을 생성합니다

2026년 5월 26일
70

3년 전, 구글은 텍스트, 이미지, 오디오, 비디오로 훈련된 통합 신경망으로, 이러한 모든 형식의 콘텐츠를 생성할 수 있는 다중 모달 대규모 언어 모델을 개발하기 위해 ‘제미니(Gemini)’를 선보였습니다.

오늘 열린 구글 I/O 개발자 컨퍼런스에서 구글은 새로운 다중 모달 모델 제품군인 '제미니 옴니(Gemini Omni)'를 통해 이 비전을 한 단계 더 발전시켰습니다. 순다르 피차이 구글 CEO는 옴니가 사용자들이 "어떤 입력 자료로든 무엇이든 만들 수 있게 해줄 것"이라고 밝혔습니다.

옴니의 초기 초점은 비디오에 맞춰져 있습니다. 이제 사용자는 이미지, 오디오, 비디오, 텍스트를 결합할 수 있습니다. 옴니는 단순히 이러한 요소들을 이어 붙이는 대신, 모든 모달리티를 지능적으로 종합하여 일관성 있는 결과물을 생성합니다. 이를 통해 물리학, 문화, 역사, 과학에 대한 이해를 보여주는 고품질 비디오가 만들어집니다.

또한 옴니는 구글의 '나노 바나나(Nano Banana)' 도구와 유사하게, 사용자가 간단한 텍스트 명령어로 사진을 편집할 수 있게 하여 복잡한 소프트웨어가 필요 없도록 합니다.

구글은 이미 텍스트와 이미지를 동영상으로 변환하고 아바타를 연출 및 맞춤 설정할 수 있는 전용 동영상 모델인 'Veo'를 제공하고 있습니다. 그러나 구글 딥마인드(Google DeepMind)의 제품 관리 이사인 니콜 브리흐토바(Nicole Brichtova)는 이번 출시가 단순한 Veo 업데이트 그 이상임을 강조했습니다. "이는 제미니(Gemini)의 지능과 우리 미디어 모델의 렌더링 능력을 융합하는 다음 단계입니다."

월요일 열린 미디어 브리핑에서 딥마인드의 최고 기술 책임자 코레이 카부쿠쿠올루는 다음과 같은 예를 제시했습니다. "단백질 접힘 과정을 설명하는 클레이 애니메이션"이라는 프롬프트를 입력하자, 옴니는 즉시 "단백질은 아미노산 사슬로 시작됩니다. 이들은 알파 나선과 베타 시트라고 불리는 평평한 부분 같은 구조로 접히며, 결국 정밀한 3차원 형태를 형성합니다"라고 설명하는 내레이션이 포함된 스톱모션 영상을 생성했습니다.

옴니(Omni)에 대한 장기적인 비전은 더 광범위하며, 오디오에서 이미지를 생성하거나 비디오에서 오디오를 생성하는 등의 기능을 포함합니다.

피차이는 브리핑에서 "우리가 처음 제미니(Gemini)를 발표했을 때, 이는 우리의 첫 번째 네이티브 멀티모달 AI 모델이었습니다"라고 언급했다. "우리는 텍스트, 코드, 오디오, 이미지, 비디오를 조합하여 훈련시키면 세상에 대한 더 깊은 이해로 이어질 것임을 알고 있었습니다. 월드 모델을 통해 AI는 텍스트 예측에서 현실 시뮬레이션으로 진화하고 있습니다. 제미니 옴니(Gemini Omni)는 그 방향으로 나아가는 다음 단계입니다."

이번 출시의 일환으로, 사용자들은 자신의 디지털 아바타가 등장하는 동영상을 제작할 수도 있게 됩니다. 이는 OpenAI가 현재 서비스를 중단한 Sora 앱의 Cameos 기능을 통해 대중화된 기능입니다. 브리흐토바에 따르면, 딥페이크를 방지하기 위해 사용자는 일련의 숫자를 말하며 자신의 모습을 녹화하는 전용 온보딩 절차를 완료해야 합니다. 이후 아바타는 향후 사용을 위해 저장됩니다.

또한, 옴니로 제작된 모든 동영상에는 구글의 SynthID 디지털 워터마크가 포함되므로, 사용자는 해당 콘텐츠가 제미니 제품으로 생성되었는지 확인할 수 있습니다.

이 제품군의 첫 번째 모델은 '제미니 옴니 플래시(Gemini Omni Flash)'로, 오늘 제미니 앱, 유튜브 숏츠(YouTube Shorts), AI 크리에이티브 스튜디오 '플로우(Flow)'를 통해 출시된다. 플래시는 10초 분량의 동영상을 생성할 수 있다. 브리흐토바는 이 재생 시간이 모델의 한계 때문이 아니라, 현재 대부분의 사용자가 짧은 클립을 선호한다는 점을 고려해 접근성을 넓히기 위한 전략적 결정이라고 설명했다. 장편 동영상 지원은 가까운 시일 내에 계획되어 있다.

구글은 옴니 플래시를 주로 소비자용 도구로 포지셔닝하는 것으로 보입니다. 테크크런치와의 통화에서 브리흐토바와 딥마인드 연구 엔지니어 게이브 바스-마론은 아바타 활용 사례를 개인적인 용도로 설명했습니다. 예를 들어, 자신이 상을 받거나 달을 방문하는 영상을 만들거나, 휴가 영상 배경에서 지나가던 사람을 제거하는 것 등이 있습니다.

바스-마론은 이를 간결하게 요약했다. "이것들은 마치 개인화된 밈과 같습니다."

"우리는 확실히 소비자가 쉽게 사용할 수 있도록 만드는 데 집중했습니다,"라고 브리흐토바는 말했습니다. "많은 동영상 모델이 주류 소비자 시장으로 성공적으로 진출하지 못했기 때문에, 이것이 바로 우리가 시도하는 바입니다."

이러한 사용 편의성에는 한 가지 주의할 점이 있습니다. 브리흐토바와 바스-마론은 편집 프롬프트가 매우 구체적이어야 한다고 지적했습니다. 그렇지 않으면 옴니(Omni)가 과도하게 편집하거나 사용자가 유지하고자 했던 요소를 의도치 않게 변경할 수 있는데, 이는 나노 바나나(Nano Banana) 사용자들도 겪는 문제입니다.

구글의 ‘제미니 옴니’는 이미지, 오디오, 텍스트를 영상으로 변환해 주는데, 이는 시작에 불과합니다

이미지 출처:Google

Omni가 당장 소비자 시장에 초점을 맞추고 있음에도 불구하고, 기업 및 창작 분야에서의 잠재력은 분명합니다. 구글은 앞으로 몇 주 내에 API를 통해 Omni를 제공할 예정입니다. 이미 Shorts에서 사용 가능한 이 아바타 생성 도구는 콘텐츠 제작자들 사이에서 인기를 끌 것으로 예상됩니다. 더 넓게 보면, 엔드투엔드(end-to-end) 멀티모달 워크플로는 광고 및 영화 제작 분야에 혁명을 일으킬 수 있습니다.

스타트업 루마 AI(Luma AI)는 자체 개발한 '통합' 모델을 기반으로 한 유사한 에이전트형 도구를 개발 중이며, 이 도구는 브리프와 제품 이미지만으로도 전체 광고 캠페인을 생성할 수 있다.

"저희는 사실 이 모델의 텍스트 렌더링 기능을 꽤 자랑스럽게 생각하는데, 이는 광고와 같은 분야에 매우 유용합니다,"라고 브리흐토바는 말했다. "제품 배치나 심지어 슬로건 하나만 필요하더라도 정확성은 매우 중요합니다... 영화 제작자나 다른 크리에이터들도 이 모델을 채택할 것으로 확신합니다."

더 전문적인 사용 사례에는 모든 Omni 작업에서 뛰어난 성능을 제공하도록 설계된 곧 출시될 Omni Pro 모델이 더 적합할 수 있습니다. 구글은 아직 Pro 버전의 출시일을 발표하지 않았지만, 브리흐토바는 "Flash를 훨씬 뛰어넘는 성능의 획기적인 도약을 이룰 때" 출시될 것이라고 밝혔습니다.

관련 기사
구글 포토, AI로 영화 ‘클루리스’의 상징적인 옷장을 재현하다 구글 포토, AI로 영화 ‘클루리스’의 상징적인 옷장을 재현하다 구글 포토는 수요일, 곧 출시될 새로운 AI 기반 기능을 발표했습니다. 이 기능은 사용자의 옷 사진을 디지털 옷장으로 변환해 주어, 새로운 코디를 구성하고 가상으로 입어볼 수도 있게 해줍니다. 이 개념은 영화 ‘클루리스’에서 셰어가 입을 옷을 고르며 수많은 의상들을 둘러보던 그 상징적인 가상 옷장에서 영감을 받은 것이 분명합니다.구글은 이 기능이 AI 기술
Google I/O 2026, Gmail 수신함과의 음성 상호작용 기능 공개 Google I/O 2026, Gmail 수신함과의 음성 상호작용 기능 공개 구글은 계속해서 AI를 사용자의 수신함에 통합하고 있습니다. 화요일 열린 IO 2026 개발자 컨퍼런스에서 구글은 대화형 AI를 통해 Gmail의 ‘AI 수신함’ 기능을 확장했으며, 이를 통해 사용자는 검색어에만 의존하지 않고 수신함의 내용에 대해 직접 질문할 수 있게 되었습니다.구글에 따르면, 'Gmail Live'라는 이름의 이 제미니(Gemini) A
구글, 인도에서 크롬용 제미니 서비스 출시 구글, 인도에서 크롬용 제미니 서비스 출시 수요일, 구글은 크롬용 제미니(Gemini) 통합 기능을 인도, 캐나다, 뉴질랜드를 포함한 새로운 지역으로 확대한다고 발표했습니다. 이번 업데이트를 통해 데스크톱 사용자는 사이드바를 통해 제미니에 접속할 수 있게 되며, 여기서 구글의 AI 챗봇에게 화면상의 콘텐츠에 대해 질문하거나, 지메일(Gmail), 킵(Keep), 드라이브(Drive), 유튜브(You
관련 특별 주제 추천
이미지 편집 최고의 AI 노이즈 감소 소프트웨어: 저조도 야간 사진에서 노이즈와 왜곡을 제거하세요.
최고의 AI 노이즈 감소 소프트웨어: 저조도 야간 사진에서 노이즈와 왜곡을 제거하세요.

2026년 저조도 야간 촬영에 가장 적합한 AI 노이즈 감소 소프트웨어를 발견해 보세요. 저희가 엄선하여 제공하는 이 목록에서는 무료 및 유료 도구들을 비교하며, 실제 사용 테스트 결과와 매주 업데이트되는 순위를 제공합니다. 불필요한 요소들을 쉽게 제거하여 더 깨끗한 이미지를 얻으세요. XIX.AI에서 AI의 강력한 기능을 활용해 보세요.

10 도구
xix.ai
챗봇 최고의 맞춤형 AI 여자친구 생성기: 나만의 개성, 취미, 배경 이야기를 만들어보세요
최고의 맞춤형 AI 여자친구 생성기: 나만의 개성, 취미, 배경 이야기를 만들어보세요

XIX.AI에서 2026년 최고의 맞춤형 AI 여자친구 생성기를 만나보세요. 독창적인 성격, 취미, 깊이 있는 배경 이야기를 디자인할 수 있도록 엄선된 최고 평점 목록을 확인해 보세요. 실제 사용 후기를 바탕으로 무료 옵션과 유료 옵션을 비교해 보세요. 지금 바로 나만의 완벽한 창의적 동반자를 만나보세요.

10 도구
xix.ai
생산력 AI 아키텍처 설계자: 자연어를 활용하여 확장 가능한 시스템 아키텍처 구축하기
AI 아키텍처 설계자: 자연어를 활용하여 확장 가능한 시스템 아키텍처 구축하기

XIX.AI에서 2026년 최고의 AI 아키텍처 설계 도구를 만나보세요. 엄선된 최고 평점 목록에는 자연어를 활용해 확장 가능한 시스템 아키텍처를 구축할 수 있는 강력하고 혁신적인 솔루션이 포함되어 있습니다. 실제 사용 사례를 바탕으로 무료 및 유료 옵션을 비교해 보세요. 지금 바로 AI 경쟁력을 강화하고 개발 프로세스를 간소화하세요.

10 도구
xix.ai
만화 창작 AI 캐릭터 프로필 생성 도구: 만화 캐릭터를 위한 상세한 배경 이야기 및 시각적 참고 자료를 제공합니다.
AI 캐릭터 프로필 생성 도구: 만화 캐릭터를 위한 상세한 배경 이야기 및 시각적 참고 자료를 제공합니다.

2026년 최신 최고의 AI 캐릭터 프로필 생성 도구: 만화 캐릭터들을 위한 상세한 배경 이야기와 시각적 참조 자료를 생성하는 데 사용할 수 있는 최고 평가를 받은 도구들을 발견해 보세요. 저희가 매주 업데이트하는 이 목록은 실제 사용 테스트를 기반으로 무료 및 유료 옵션들을 비교합니다. 강력하고 혁신적인 도구들을 활용하여 매력적인 캐릭터를 만들고 창작 작업 흐름을 효율화해 보세요. XIX.AI에서 순위를 확인하고 오늘 바로 완벽한 스토리텔링 도구를 확보하세요.

10 도구
xix.ai
건강과 웰니스 AI 임신 코파일럿: 임신 기간별 안전한 운동 및 영양 계획 생성
AI 임신 코파일럿: 임신 기간별 안전한 운동 및 영양 계획 생성

임신 기간별 안전하고 맞춤형 운동 및 영양 계획을 위한 2026년 최고의 AI 임신 관리 도우미를 만나보세요. 무료 및 유료 서비스 비교와 실제 사용 후기를 바탕으로 엄선된 최고 평점의 추천 서비스를 확인해 보세요. XIX.AI의 전문가 가이드를 통해 가장 건강한 임신 여정을 시작해 보세요. 지금 바로 확인해 보세요.

10 도구
xix.ai
글쓰기 최고의 무료 AI 탐지 방지 글쓰기 도구: 기계적인 초안을 자연스럽고 사람처럼 읽히는 문장으로 바꿔보세요
최고의 무료 AI 탐지 방지 글쓰기 도구: 기계적인 초안을 자연스럽고 사람처럼 읽히는 문장으로 바꿔보세요

XIX.AI에서 2026년 최고의 무료 AI 글쓰기 도구를 만나보세요. 엄선된 최고 평점 목록을 통해 기계적인 초안을 자연스럽고 사람처럼 읽히는 문장으로 다듬을 수 있습니다. 실제 테스트와 매주 업데이트되는 순위를 통해 무료 및 유료 옵션을 비교해 보세요. 지금 바로 AI 글쓰기의 경쟁력을 확보하세요.

10 도구
xix.ai
의견 (0)
0/500
OR