DeepMind首席執行官Demis Hassabis宣布了Google的雙子座和VEO AI模型的未來整合

在最近一集的播客《Possible》中,由LinkedIn共同創辦人Reid Hoffman共同主持,Google DeepMind首席執行官Demis Hassabis分享了關於Google計劃的一些令人振奮的消息。他透露,Google正計劃將其Gemini AI模型與Veo視頻生成模型合併。這一融合旨在增強Gemini對物理世界的理解,使其更擅長理解現實生活的動態。
Hassabis強調,從一開始,Gemini就被設計為多模態。「我們一直以來都將Gemini,我們的基礎模型,構建為從一開始就具備多模態功能,」他解釋道。這一方法的動機是什麼?是為了打造一個真正能在日常生活中提供幫助的通用數位助理。「一個……在現實世界中真正幫助你的助理,」Hassabis詳細闡述。
AI產業正穩步朝著你可能稱之為「全能」模型的方向發展——那些能夠處理和合成各種類型媒體的模型。例如,Google的最新Gemini迭代版本不僅能生成文本,還能生成音頻和圖像。與此同時,OpenAI的ChatGPT預設模型可以即時生成圖像,包括令人愉悅的吉卜力工作室風格藝術。Amazon也不落後,計劃在今年晚些時候推出一個「任意到任意」的模型。
這些全能模型需要大量的訓練數據——想想圖像、視頻、音頻和文本。Hassabis暗示,Veo的視頻數據主要來自YouTube,這是Google擁有的寶貴資源。「基本上,通過觀看YouTube視頻——大量的YouTube視頻——[Veo 2]可以弄清楚,你知道的,世界的物理規律,」他指出。
Google此前曾向TechCrunch提到,其模型「可能」會使用「部分」YouTube內容進行訓練,這與與YouTube創作者達成的協議一致。值得注意的是,去年Google擴展了其服務條款,部分原因是為了獲得更多用於訓練其AI模型的數據。
相關文章
Google 的 Gemini 應用程式新增即時 AI 視訊、深度研究和新功能 (120 個字)
Google 在 I/O 2025 開發者大會上發表了重大的 Gemini AI 強化功能,擴展多模態功能、引進下一代 AI 模型,並加強整個產品組合的生態系統整合。關鍵的 Gemini Live 推出Google 已正式向所有 iOS 和 Android 使用者推出 Gemini Live 的視覺辨識功能。這項更新以尖端的 Project Astra 技術為基礎,結合裝置攝影機或螢幕分享的即時視
Google 最新的 Gemini AI 模型在測試中顯示安全分數下降
Google 的內部測試顯示,其最新 AI 模型的安全規範與先前版本相比,有令人擔憂的效能落差。根據最新公佈的基準,Gemini 2.5 Flash 模型在處理文字和圖像提示時,在關鍵安全指標上的準則違反率高出 4-10%。這家科技巨擘的自動評估結果突顯出令人憂慮的趨勢:當出現邊界測試提示時,Gemini 2.5 Flash 比其前身 Gemini 2.0 更常跨越既定的內容安全線。Google
Google 的 Gemini AI 在協助下征服 Pokémon Blue
Google 的 AI 里程碑:征服經典 Pokémon 冒險遊戲Google 最先進的 AI 模型似乎取得了顯著的遊戲突破 - 完成 1996 年 Game Boy 遊戲《Pokémon Blue》。首席執行長 Sundar Pichai 在社交媒體上慶祝這項成就,不過這項成就有其重要的背景。Gemini Plays Pokémon Liveestream 專案其實是由軟體工程師 Joel Z
評論 (1)
0/200
RalphSanchez
2025-08-01 10:48:18
Wow, merging Gemini with Veo sounds like a game-changer! Can't wait to see how this powers up video creation. But, like, is Google trying to dominate every AI corner now? 😅
0
在最近一集的播客《Possible》中,由LinkedIn共同創辦人Reid Hoffman共同主持,Google DeepMind首席執行官Demis Hassabis分享了關於Google計劃的一些令人振奮的消息。他透露,Google正計劃將其Gemini AI模型與Veo視頻生成模型合併。這一融合旨在增強Gemini對物理世界的理解,使其更擅長理解現實生活的動態。
Hassabis強調,從一開始,Gemini就被設計為多模態。「我們一直以來都將Gemini,我們的基礎模型,構建為從一開始就具備多模態功能,」他解釋道。這一方法的動機是什麼?是為了打造一個真正能在日常生活中提供幫助的通用數位助理。「一個……在現實世界中真正幫助你的助理,」Hassabis詳細闡述。
AI產業正穩步朝著你可能稱之為「全能」模型的方向發展——那些能夠處理和合成各種類型媒體的模型。例如,Google的最新Gemini迭代版本不僅能生成文本,還能生成音頻和圖像。與此同時,OpenAI的ChatGPT預設模型可以即時生成圖像,包括令人愉悅的吉卜力工作室風格藝術。Amazon也不落後,計劃在今年晚些時候推出一個「任意到任意」的模型。
這些全能模型需要大量的訓練數據——想想圖像、視頻、音頻和文本。Hassabis暗示,Veo的視頻數據主要來自YouTube,這是Google擁有的寶貴資源。「基本上,通過觀看YouTube視頻——大量的YouTube視頻——[Veo 2]可以弄清楚,你知道的,世界的物理規律,」他指出。
Google此前曾向TechCrunch提到,其模型「可能」會使用「部分」YouTube內容進行訓練,這與與YouTube創作者達成的協議一致。值得注意的是,去年Google擴展了其服務條款,部分原因是為了獲得更多用於訓練其AI模型的數據。


Wow, merging Gemini with Veo sounds like a game-changer! Can't wait to see how this powers up video creation. But, like, is Google trying to dominate every AI corner now? 😅












