DeepMind首席執行官Demis Hassabis宣布了Google的雙子座和VEO AI模型的未來整合

在最近一集的播客《Possible》中,由LinkedIn共同創辦人Reid Hoffman共同主持,Google DeepMind首席執行官Demis Hassabis分享了關於Google計劃的一些令人振奮的消息。他透露,Google正計劃將其Gemini AI模型與Veo視頻生成模型合併。這一融合旨在增強Gemini對物理世界的理解,使其更擅長理解現實生活的動態。
Hassabis強調,從一開始,Gemini就被設計為多模態。「我們一直以來都將Gemini,我們的基礎模型,構建為從一開始就具備多模態功能,」他解釋道。這一方法的動機是什麼?是為了打造一個真正能在日常生活中提供幫助的通用數位助理。「一個……在現實世界中真正幫助你的助理,」Hassabis詳細闡述。
AI產業正穩步朝著你可能稱之為「全能」模型的方向發展——那些能夠處理和合成各種類型媒體的模型。例如,Google的最新Gemini迭代版本不僅能生成文本,還能生成音頻和圖像。與此同時,OpenAI的ChatGPT預設模型可以即時生成圖像,包括令人愉悅的吉卜力工作室風格藝術。Amazon也不落後,計劃在今年晚些時候推出一個「任意到任意」的模型。
這些全能模型需要大量的訓練數據——想想圖像、視頻、音頻和文本。Hassabis暗示,Veo的視頻數據主要來自YouTube,這是Google擁有的寶貴資源。「基本上,通過觀看YouTube視頻——大量的YouTube視頻——[Veo 2]可以弄清楚,你知道的,世界的物理規律,」他指出。
Google此前曾向TechCrunch提到,其模型「可能」會使用「部分」YouTube內容進行訓練,這與與YouTube創作者達成的協議一致。值得注意的是,去年Google擴展了其服務條款,部分原因是為了獲得更多用於訓練其AI模型的數據。
相關文章
Google 揭示 AI Mode 和 Veo 3 以革新搜尋和影片創作
Google 最近推出了 AI Mode 和 Veo 3,兩項創新技術將重塑網路搜尋和數位內容創作。AI Mode 提供了一種量身定制的、AI增強的搜尋體驗,超越傳統的關鍵字搜尋,通過理解使用者的情境、意圖和偏好,實現更快、更直觀的資訊檢索。與此同時,Veo 3 通過尖端 AI 技術轉變影片製作,生成具有同步音訊的逼真影片,包括對話、音效和環境音。這一突破使行銷人員、開發者和創作者能夠高效且大規模
Gemini聊天機器人增強圖像編輯功能
Google的Gemini聊天機器人應用程式現在允許用戶從手機或電腦編輯AI生成和上傳的圖像,該公司於週三在一篇博客文章中宣布。Gemini的內建圖像編輯功能即日起開始推出,計劃在未來幾週內擴展到大多數國家並支持超過45種語言。這是在Google於三月在AI Studio測試的AI圖像編輯模型之後,該模型因其具爭議性的水印移除功能而受到關注。與ChatGPT最近改進的圖像編輯工具類似,Gemini
Google 揭露 Deep Think 以提升 Gemini AI 性能
Google 正在推進其頂級 Gemini AI 模型。在 2025 年週二的 Google I/O 大會上,該公司推出了 Deep Think,這是其旗艦 Gemini 2.5 Pro 模型的進階推理模式。Deep Think 使模型能在回答前評估多個回應,從而在特定基準測試中提升其表現。“Deep Think 最大化了模型的能力,”Google DeepMind(公司的人工智慧研究部門)的負責
評論 (1)
0/200
RalphSanchez
2025-08-01 10:48:18
Wow, merging Gemini with Veo sounds like a game-changer! Can't wait to see how this powers up video creation. But, like, is Google trying to dominate every AI corner now? 😅
0
在最近一集的播客《Possible》中,由LinkedIn共同創辦人Reid Hoffman共同主持,Google DeepMind首席執行官Demis Hassabis分享了關於Google計劃的一些令人振奮的消息。他透露,Google正計劃將其Gemini AI模型與Veo視頻生成模型合併。這一融合旨在增強Gemini對物理世界的理解,使其更擅長理解現實生活的動態。
Hassabis強調,從一開始,Gemini就被設計為多模態。「我們一直以來都將Gemini,我們的基礎模型,構建為從一開始就具備多模態功能,」他解釋道。這一方法的動機是什麼?是為了打造一個真正能在日常生活中提供幫助的通用數位助理。「一個……在現實世界中真正幫助你的助理,」Hassabis詳細闡述。
AI產業正穩步朝著你可能稱之為「全能」模型的方向發展——那些能夠處理和合成各種類型媒體的模型。例如,Google的最新Gemini迭代版本不僅能生成文本,還能生成音頻和圖像。與此同時,OpenAI的ChatGPT預設模型可以即時生成圖像,包括令人愉悅的吉卜力工作室風格藝術。Amazon也不落後,計劃在今年晚些時候推出一個「任意到任意」的模型。
這些全能模型需要大量的訓練數據——想想圖像、視頻、音頻和文本。Hassabis暗示,Veo的視頻數據主要來自YouTube,這是Google擁有的寶貴資源。「基本上,通過觀看YouTube視頻——大量的YouTube視頻——[Veo 2]可以弄清楚,你知道的,世界的物理規律,」他指出。
Google此前曾向TechCrunch提到,其模型「可能」會使用「部分」YouTube內容進行訓練,這與與YouTube創作者達成的協議一致。值得注意的是,去年Google擴展了其服務條款,部分原因是為了獲得更多用於訓練其AI模型的數據。



Wow, merging Gemini with Veo sounds like a game-changer! Can't wait to see how this powers up video creation. But, like, is Google trying to dominate every AI corner now? 😅












