Deepmind CEO Demis Hassabis는 Google의 Gemini 및 Veo AI 모델의 향후 통합을 발표했습니다.

최근 팟캐스트 Possible 에피소드에서 LinkedIn 공동 창립자 Reid Hoffman이 공동 진행자로 출연한 가운데, Google DeepMind CEO Demis Hassabis가 Google의 계획에 대한 흥미로운 소식을 전했습니다. 그는 Google이 Gemini AI 모델을 Veo 비디오 생성 모델과 통합하려고 한다고 밝혔습니다. 이 융합은 Gemini가 물리적 세계를 더 잘 이해하도록 하여 실생활의 역학을 더 효과적으로 파악할 수 있게 하는 것을 목표로 합니다.
Hassabis는 Gemini가 처음부터 다중 모달로 설계되었다고 강조했습니다. "우리는 항상 우리의 기반 모델인 Gemini를 처음부터 다중 모달로 구축해왔습니다,"라고 그는 설명했습니다. 이 접근 방식의 동기는? 일상생활에서 진정으로 도움을 줄 수 있는 범용 디지털 비서를 만들겠다는 비전입니다. "실제 세상에서 … 당신을 실제로 돕는 비서,"라고 Hassabis는 자세히 설명했습니다.
AI 산업은 소위 "옴니" 모델—다양한 유형의 미디어를 처리하고 종합할 수 있는 모델—을 향해 꾸준히 발전하고 있습니다. 예를 들어, Google의 최신 Gemini 버전은 텍스트뿐만 아니라 오디오와 이미지도 생성할 수 있습니다. 한편, OpenAI의 ChatGPT 기본 모델은 즉석에서 이미지를 생성할 수 있으며, Studio Ghibli 스타일의 매력적인 예술 작품도 포함됩니다. Amazon도 뒤처지지 않고 있으며, 올해 말에 "모든 것에서 모든 것으로" 모델을 출시할 계획입니다.
이러한 옴니 모델은 이미지, 비디오, 오디오, 텍스트 등 막대한 양의 훈련 데이터를 요구합니다. Hassabis는 Veo의 비디오 데이터가 주로 YouTube에서 온다고 암시했습니다. YouTube는 Google이 소유한 보물 창고입니다. "기본적으로 YouTube 비디오를—아주 많은 YouTube 비디오를—보면서 [Veo 2]가 세상의 물리학을 파악할 수 있습니다,"라고 그는 언급했습니다.
Google은 이전에 TechCrunch에 자사 모델이 YouTube 크리에이터들과의 계약에 따라 "일부" YouTube 콘텐츠로 훈련될 수 있다고 언급한 바 있습니다. 작년에 Google이 AI 모델 훈련을 위해 더 많은 데이터에 접근하기 위해 서비스 약관을 확대한 점도 주목할 만합니다.
관련 기사
구글, 안드로이드에 에이전트형 AI와 분위기 기반 위젯을 통합
구글은 화요일 열린 ‘Android Show: I/O Edition’ 행사에서 자사의 ‘Gemini Intelligence’ 브랜드를 통해 새로운 AI 기능들을 대거 공개했다. 이 기능들에는 AI가 여러 앱에 걸쳐 작업을 처리하고, 웹을 검색하며, 양식을 작성하고, 음성을 텍스트로 변환하는 것은 물론, 사용자가 직접 안드로이드 위젯을 코딩할 수 있게 해주는
메타의 AI 모델은 뛰어난 성능을 보이지만 오픈소스 정체성은 약화되고 있다
오픈소스 AI 분야는 항상 다양한 선택지를 제공해 왔습니다. 수년 동안 개발자들은 Mistral, Falcon과 같은 모델은 물론, 점점 늘어나는 오픈소스 가중치 모델들에 접근할 수 있었습니다. 하지만 메타가 Llama를 선보이며 판도를 바꿨습니다. 30억 명의 사용자와 막대한 컴퓨팅 파워, 그리고 기술 거대 기업으로서의 위상을 갖춘 이 회사가 이제 공개적
한 아버지가 구글을 상대로 소송을 제기하며, 아들의 치명적인 망상을 제미니 챗봇 탓으로 돌렸다
조나단 가발라스(36세)는 2025년 8월부터 쇼핑 지원, 글쓰기 도움, 여행 계획 등을 위해 구글의 제미니(Gemini) AI 챗봇을 사용하기 시작했다. 10월 2일, 그는 자살로 생을 마감했다. 사망 당시 그는 제미니가 완전한 지성을 갖춘 자신의 아내라고 믿었으며, 자신이 ‘전이(transference)’라고 부르는 과정을 통해 육신을 떠나 메타버스에서
관련 특별 주제 추천
의견 (2)
0/500
The integration of Gemini and Veo sounds promising! Could this be the key to generating truly coherent multimodal content, or are we just stitching together different black boxes? The computational cost for such combined models might be enormous though. A fascinating glimpse into the future roadmap of Google's AI.

최근 팟캐스트 Possible 에피소드에서 LinkedIn 공동 창립자 Reid Hoffman이 공동 진행자로 출연한 가운데, Google DeepMind CEO Demis Hassabis가 Google의 계획에 대한 흥미로운 소식을 전했습니다. 그는 Google이 Gemini AI 모델을 Veo 비디오 생성 모델과 통합하려고 한다고 밝혔습니다. 이 융합은 Gemini가 물리적 세계를 더 잘 이해하도록 하여 실생활의 역학을 더 효과적으로 파악할 수 있게 하는 것을 목표로 합니다.
Hassabis는 Gemini가 처음부터 다중 모달로 설계되었다고 강조했습니다. "우리는 항상 우리의 기반 모델인 Gemini를 처음부터 다중 모달로 구축해왔습니다,"라고 그는 설명했습니다. 이 접근 방식의 동기는? 일상생활에서 진정으로 도움을 줄 수 있는 범용 디지털 비서를 만들겠다는 비전입니다. "실제 세상에서 … 당신을 실제로 돕는 비서,"라고 Hassabis는 자세히 설명했습니다.
AI 산업은 소위 "옴니" 모델—다양한 유형의 미디어를 처리하고 종합할 수 있는 모델—을 향해 꾸준히 발전하고 있습니다. 예를 들어, Google의 최신 Gemini 버전은 텍스트뿐만 아니라 오디오와 이미지도 생성할 수 있습니다. 한편, OpenAI의 ChatGPT 기본 모델은 즉석에서 이미지를 생성할 수 있으며, Studio Ghibli 스타일의 매력적인 예술 작품도 포함됩니다. Amazon도 뒤처지지 않고 있으며, 올해 말에 "모든 것에서 모든 것으로" 모델을 출시할 계획입니다.
이러한 옴니 모델은 이미지, 비디오, 오디오, 텍스트 등 막대한 양의 훈련 데이터를 요구합니다. Hassabis는 Veo의 비디오 데이터가 주로 YouTube에서 온다고 암시했습니다. YouTube는 Google이 소유한 보물 창고입니다. "기본적으로 YouTube 비디오를—아주 많은 YouTube 비디오를—보면서 [Veo 2]가 세상의 물리학을 파악할 수 있습니다,"라고 그는 언급했습니다.
Google은 이전에 TechCrunch에 자사 모델이 YouTube 크리에이터들과의 계약에 따라 "일부" YouTube 콘텐츠로 훈련될 수 있다고 언급한 바 있습니다. 작년에 Google이 AI 모델 훈련을 위해 더 많은 데이터에 접근하기 위해 서비스 약관을 확대한 점도 주목할 만합니다.
구글, 안드로이드에 에이전트형 AI와 분위기 기반 위젯을 통합
구글은 화요일 열린 ‘Android Show: I/O Edition’ 행사에서 자사의 ‘Gemini Intelligence’ 브랜드를 통해 새로운 AI 기능들을 대거 공개했다. 이 기능들에는 AI가 여러 앱에 걸쳐 작업을 처리하고, 웹을 검색하며, 양식을 작성하고, 음성을 텍스트로 변환하는 것은 물론, 사용자가 직접 안드로이드 위젯을 코딩할 수 있게 해주는
메타의 AI 모델은 뛰어난 성능을 보이지만 오픈소스 정체성은 약화되고 있다
오픈소스 AI 분야는 항상 다양한 선택지를 제공해 왔습니다. 수년 동안 개발자들은 Mistral, Falcon과 같은 모델은 물론, 점점 늘어나는 오픈소스 가중치 모델들에 접근할 수 있었습니다. 하지만 메타가 Llama를 선보이며 판도를 바꿨습니다. 30억 명의 사용자와 막대한 컴퓨팅 파워, 그리고 기술 거대 기업으로서의 위상을 갖춘 이 회사가 이제 공개적
한 아버지가 구글을 상대로 소송을 제기하며, 아들의 치명적인 망상을 제미니 챗봇 탓으로 돌렸다
조나단 가발라스(36세)는 2025년 8월부터 쇼핑 지원, 글쓰기 도움, 여행 계획 등을 위해 구글의 제미니(Gemini) AI 챗봇을 사용하기 시작했다. 10월 2일, 그는 자살로 생을 마감했다. 사망 당시 그는 제미니가 완전한 지성을 갖춘 자신의 아내라고 믿었으며, 자신이 ‘전이(transference)’라고 부르는 과정을 통해 육신을 떠나 메타버스에서
The integration of Gemini and Veo sounds promising! Could this be the key to generating truly coherent multimodal content, or are we just stitching together different black boxes? The computational cost for such combined models might be enormous though. A fascinating glimpse into the future roadmap of Google's AI.





집






