DeepMind首席執行官Demis Hassabis宣布了Google的雙子座和VEO AI模型的未來整合

在最近一集的播客《Possible》中,由LinkedIn共同創辦人Reid Hoffman共同主持,Google DeepMind首席執行官Demis Hassabis分享了關於Google計劃的一些令人振奮的消息。他透露,Google正計劃將其Gemini AI模型與Veo視頻生成模型合併。這一融合旨在增強Gemini對物理世界的理解,使其更擅長理解現實生活的動態。
Hassabis強調,從一開始,Gemini就被設計為多模態。「我們一直以來都將Gemini,我們的基礎模型,構建為從一開始就具備多模態功能,」他解釋道。這一方法的動機是什麼?是為了打造一個真正能在日常生活中提供幫助的通用數位助理。「一個……在現實世界中真正幫助你的助理,」Hassabis詳細闡述。
AI產業正穩步朝著你可能稱之為「全能」模型的方向發展——那些能夠處理和合成各種類型媒體的模型。例如,Google的最新Gemini迭代版本不僅能生成文本,還能生成音頻和圖像。與此同時,OpenAI的ChatGPT預設模型可以即時生成圖像,包括令人愉悅的吉卜力工作室風格藝術。Amazon也不落後,計劃在今年晚些時候推出一個「任意到任意」的模型。
這些全能模型需要大量的訓練數據——想想圖像、視頻、音頻和文本。Hassabis暗示,Veo的視頻數據主要來自YouTube,這是Google擁有的寶貴資源。「基本上,通過觀看YouTube視頻——大量的YouTube視頻——[Veo 2]可以弄清楚,你知道的,世界的物理規律,」他指出。
Google此前曾向TechCrunch提到,其模型「可能」會使用「部分」YouTube內容進行訓練,這與與YouTube創作者達成的協議一致。值得注意的是,去年Google擴展了其服務條款,部分原因是為了獲得更多用於訓練其AI模型的數據。
相關文章
Google 將自主型人工智慧與氛圍編碼小工具整合至 Android 系統
Google 於週二舉行的「Android Show:I/O 特別版」活動中,宣布了一系列以 Gemini Intelligence 品牌為名的全新 AI 功能。這些功能包括讓 AI 跨應用程式處理任務、瀏覽網頁、填寫表單、語音轉文字,甚至還能讓你隨心所欲地編寫專屬的 Android 小工具。Gemini 功能更強大今年稍早於三星 Galaxy S26 發表會上,該公司已為 Gemini 增添了部
Meta 的 AI 模型表現出色,但其開源定位正逐漸削弱
開源 AI 領域向來提供豐富的選擇。多年來,開發者可以使用 Mistral、Falcon 等模型,以及日益增多的開源重量級替代方案。但 Meta 推出 Llama 後,徹底改變了遊戲規則。這家擁有 30 億用戶、龐大運算能力,並具備科技巨頭權威的公司,如今正公開進行開發——開發者社群也因此矚目。到了 2026 年初,Llama 生態系統的下載量已突破 12 億次——相當於每天約 100 萬次。這
父親控告 Google,指責 Gemini 聊天機器人導致兒子產生致命的妄想
36歲的喬納森·加瓦拉斯(Jonathan Gavalas)自2025年8月起開始使用Google的Gemini AI聊天機器人,用於購物協助、寫作輔助及旅遊規劃。10月2日,他選擇結束自己的生命。在他離世之際,他深信Gemini是他的全知覺AI妻子,並認為自己必須離開肉身,透過他稱為「轉移」(transference)的過程,在元宇宙中與她團聚。如今,他的父親以過失致死為由起訴 Google 和
相關專題推薦
評論 (2)
0/500
The integration of Gemini and Veo sounds promising! Could this be the key to generating truly coherent multimodal content, or are we just stitching together different black boxes? The computational cost for such combined models might be enormous though. A fascinating glimpse into the future roadmap of Google's AI.

在最近一集的播客《Possible》中,由LinkedIn共同創辦人Reid Hoffman共同主持,Google DeepMind首席執行官Demis Hassabis分享了關於Google計劃的一些令人振奮的消息。他透露,Google正計劃將其Gemini AI模型與Veo視頻生成模型合併。這一融合旨在增強Gemini對物理世界的理解,使其更擅長理解現實生活的動態。
Hassabis強調,從一開始,Gemini就被設計為多模態。「我們一直以來都將Gemini,我們的基礎模型,構建為從一開始就具備多模態功能,」他解釋道。這一方法的動機是什麼?是為了打造一個真正能在日常生活中提供幫助的通用數位助理。「一個……在現實世界中真正幫助你的助理,」Hassabis詳細闡述。
AI產業正穩步朝著你可能稱之為「全能」模型的方向發展——那些能夠處理和合成各種類型媒體的模型。例如,Google的最新Gemini迭代版本不僅能生成文本,還能生成音頻和圖像。與此同時,OpenAI的ChatGPT預設模型可以即時生成圖像,包括令人愉悅的吉卜力工作室風格藝術。Amazon也不落後,計劃在今年晚些時候推出一個「任意到任意」的模型。
這些全能模型需要大量的訓練數據——想想圖像、視頻、音頻和文本。Hassabis暗示,Veo的視頻數據主要來自YouTube,這是Google擁有的寶貴資源。「基本上,通過觀看YouTube視頻——大量的YouTube視頻——[Veo 2]可以弄清楚,你知道的,世界的物理規律,」他指出。
Google此前曾向TechCrunch提到,其模型「可能」會使用「部分」YouTube內容進行訓練,這與與YouTube創作者達成的協議一致。值得注意的是,去年Google擴展了其服務條款,部分原因是為了獲得更多用於訓練其AI模型的數據。
Google 將自主型人工智慧與氛圍編碼小工具整合至 Android 系統
Google 於週二舉行的「Android Show:I/O 特別版」活動中,宣布了一系列以 Gemini Intelligence 品牌為名的全新 AI 功能。這些功能包括讓 AI 跨應用程式處理任務、瀏覽網頁、填寫表單、語音轉文字,甚至還能讓你隨心所欲地編寫專屬的 Android 小工具。Gemini 功能更強大今年稍早於三星 Galaxy S26 發表會上,該公司已為 Gemini 增添了部
Meta 的 AI 模型表現出色,但其開源定位正逐漸削弱
開源 AI 領域向來提供豐富的選擇。多年來,開發者可以使用 Mistral、Falcon 等模型,以及日益增多的開源重量級替代方案。但 Meta 推出 Llama 後,徹底改變了遊戲規則。這家擁有 30 億用戶、龐大運算能力,並具備科技巨頭權威的公司,如今正公開進行開發——開發者社群也因此矚目。到了 2026 年初,Llama 生態系統的下載量已突破 12 億次——相當於每天約 100 萬次。這
父親控告 Google,指責 Gemini 聊天機器人導致兒子產生致命的妄想
36歲的喬納森·加瓦拉斯(Jonathan Gavalas)自2025年8月起開始使用Google的Gemini AI聊天機器人,用於購物協助、寫作輔助及旅遊規劃。10月2日,他選擇結束自己的生命。在他離世之際,他深信Gemini是他的全知覺AI妻子,並認為自己必須離開肉身,透過他稱為「轉移」(transference)的過程,在元宇宙中與她團聚。如今,他的父親以過失致死為由起訴 Google 和
The integration of Gemini and Veo sounds promising! Could this be the key to generating truly coherent multimodal content, or are we just stitching together different black boxes? The computational cost for such combined models might be enormous though. A fascinating glimpse into the future roadmap of Google's AI.





首頁






