Google 的 Gemini Omni 可根據圖片、音訊和文字生成影片
三年前,Google 推出了 Gemini,旨在開發一種多模態大型語言模型——這是一種經過文字、圖像、音訊和影片訓練的統一神經網路,能夠生成涵蓋所有這些格式的內容。
在今日舉行的 Google I/O 開發者大會上,該公司透過全新多模態模型系列「Gemini Omni」朝此願景邁進。Google 執行長桑達爾·皮查伊(Sundar Pichai)表示,Omni 將賦予使用者「從任何輸入內容創造任何事物」的能力。
Omni 初期將聚焦於影片領域。使用者現在可以結合圖像、音訊、影片和文字。Omni 並非僅將這些元素拼湊在一起,而是能跨所有模態進行智能推理,以產生連貫的輸出結果。這將產出高品質的影片,展現對物理、文化、歷史和科學的理解。
Omni 還讓使用者能透過簡單的文字指令編輯照片,無需使用複雜的軟體,這與 Google 的 Nano Banana 工具類似。
Google 先前已推出專用影片模型 Veo,能將文字與圖像轉化為影片,並支援對虛擬角色進行導演指導與自訂。然而,Google DeepMind 產品管理總監 Nicole Brichtova 強調,此次發布不僅是 Veo 的更新:「這是將 Gemini 的智慧與我們媒體模型的渲染能力相融合的下一步。」
在週一的媒體簡報會上,DeepMind首席技術專家科雷·卡武庫庫奧盧(Koray Kavukcuoglu)舉例說明:當輸入「關於蛋白質摺疊的黏土動畫解說」時,Omni迅速生成了一段定格動畫影片,並配有旁白解說:「蛋白質最初是由胺基酸鏈組成。它們會摺疊成α螺旋和稱為β摺疊的平面結構,最終形成精確的三維形狀。」
Omni 的長期願景更為廣泛,涵蓋從音訊生成圖像或從影片生成音訊等能力。
「當我們首次發表 Gemini 時,那是我們首個原生多模態 AI 模型,」皮查伊在簡報會中表示。「我們知道,透過結合文字、程式碼、音訊、圖像和影片來訓練它,將能讓它對世界有更深入的理解。藉由世界模型,AI 正從預測文字演進到模擬現實。Gemini Omni 正是朝著這個方向邁出的下一步。」
作為本次發布的一部分,使用者還將能夠創建以自身數位化身為主角的影片——這項功能是由 OpenAI 現已停用的 Sora 應用程式與 Cameos 合作所推廣的。根據布里希托娃(Brichtova)的說法,為防止深度偽造(deepfakes),使用者必須完成專門的註冊流程,其中包括錄製自己朗讀一串數字的過程。隨後,該化身將被儲存以供日後使用。
此外,所有透過 Omni 製作的影片都將包含 Google 的 SynthID 數位浮水印,讓使用者能驗證內容是否由 Gemini 產品生成。
該系列的首款模型是 Gemini Omni Flash,今日將於 Gemini 應用程式、YouTube Shorts 以及 AI 創意工作室 Flow 正式上線。Flash 能夠渲染 10 秒的影片。Brichtova 澄清,此長度並非模型的限制,而是為了擴大普及度所做的策略性決定,因為預期目前多數用戶偏好較短的影片片段。支援較長影片的功能預計將於近期推出。
Google 似乎主要將 Omni Flash 定位為消費者工具。在與 TechCrunch 的通話中,Brichtova 和 DeepMind 研究工程師 Gabe Barth-Maron 描述了虛擬化身的個人化應用場景,例如製作自己獲獎或造訪月球的影片,或是從度假影片背景中移除路人。
巴斯-馬隆簡潔地總結道:「它們就像是個人化的迷因。」
「我們確實致力於讓消費者能輕鬆使用這項功能,」Brichtova 表示。「目前鮮少有影片模型成功跨足主流消費市場,因此這是我們嘗試突破的契機。」
這種易用性伴隨著一項限制:布里希托娃和巴斯-馬隆指出,編輯提示必須非常具體。否則,Omni 可能會過度編輯,或無意中修改用戶原本想保留的元素——這也是 Nano Banana 用戶面臨的挑戰。

圖片來源:Google
儘管 Omni 目前主要鎖定消費市場,但其在企業與創意應用領域的潛力顯而易見。Google 將於未來幾週透過 API 開放 Omni 服務。這項已於 Shorts 平台推出的虛擬形象生成工具,預期將在內容創作者間引發熱潮。更廣泛而言,端到端的跨模態工作流程有望徹底改變廣告與電影製作產業。
新創公司 Luma AI 正開發一款類似的代理工具,該工具由其自有的「統一」模型驅動,能夠根據簡報和產品圖片生成完整的廣告活動。
「我們其實相當自豪於該模型的文字渲染能力,這對於廣告等應用非常有用,」Brichtova 表示。「無論是產品置入還是單純的標語,準確性都至關重要……我們確實預期電影製作人及其他創作者也會採用這個模型。」
對於更專業的應用場景,即將推出的 Omni Pro 模型或許能提供更好的解決方案,該模型旨在於所有 Omni 任務中展現卓越的表現。Google 尚未公布 Pro 版的發布日期,但 Brichtova 表示,當「我們在功能上實現超越 Flash 的重大飛躍」時,該模型便會推出。
相關文章
Google 相片運用人工智慧,讓《窈窕淑女》中那座標誌性的衣櫥栩栩如生
Google Photos 於週三宣布了一項由人工智慧驅動的新功能,這項功能將很快能將您衣物的照片轉化為數位衣櫥,讓您能創造嶄新的穿搭組合,甚至進行虛擬試穿。這個概念顯然是受到電影《窈窕淑女》中 Cher 那座標誌性的虛擬衣櫥啟發,她在片中可以瀏覽眾多服裝組合,同時決定該穿什麼。Google表示,這項功能將運用AI技術,根據您Google相簿圖庫中的衣物,自動建立您的衣櫥數位副本。在應用程式內,您
Google I/O 2026 發表了與 Gmail 收件匣的語音互動功能
Google 持續將人工智慧整合至您的收件匣中。在週二舉行的 IO 2026 開發者大會上,該公司透過對話式人工智慧擴充了 Gmail 的「AI 收件匣」功能,讓使用者能針對收件匣內容提出問題,而非僅依賴搜尋關鍵字。據 Google 表示,這項由 Gemini AI 驅動的工具名為「Gmail Live」,能協助使用者快速找出埋藏在收件匣中的資訊。圖片來源:Google舉例來說,您可能需要查詢即將
Google 在印度的 Chrome 瀏覽器中推出 Gemini
週三,Google 宣布將把 Chrome 瀏覽器的 Gemini 整合功能擴展至新地區,包括印度、加拿大和新西蘭。此項更新讓桌面版使用者能透過側邊欄存取 Gemini,藉此向 Google 的 AI 聊天機器人詢問螢幕上的內容、從 Gmail、Keep、Drive 和 YouTube 檢索資訊,以及比較不同分頁的內容。隨著此次擴展,Gemini 除英語及近期新增的 Chrome 支援語言外,亦將
相關專題推薦
評論 (0)
0/500
三年前,Google 推出了 Gemini,旨在開發一種多模態大型語言模型——這是一種經過文字、圖像、音訊和影片訓練的統一神經網路,能夠生成涵蓋所有這些格式的內容。
在今日舉行的 Google I/O 開發者大會上,該公司透過全新多模態模型系列「Gemini Omni」朝此願景邁進。Google 執行長桑達爾·皮查伊(Sundar Pichai)表示,Omni 將賦予使用者「從任何輸入內容創造任何事物」的能力。
Omni 初期將聚焦於影片領域。使用者現在可以結合圖像、音訊、影片和文字。Omni 並非僅將這些元素拼湊在一起,而是能跨所有模態進行智能推理,以產生連貫的輸出結果。這將產出高品質的影片,展現對物理、文化、歷史和科學的理解。
Omni 還讓使用者能透過簡單的文字指令編輯照片,無需使用複雜的軟體,這與 Google 的 Nano Banana 工具類似。
Google 先前已推出專用影片模型 Veo,能將文字與圖像轉化為影片,並支援對虛擬角色進行導演指導與自訂。然而,Google DeepMind 產品管理總監 Nicole Brichtova 強調,此次發布不僅是 Veo 的更新:「這是將 Gemini 的智慧與我們媒體模型的渲染能力相融合的下一步。」
在週一的媒體簡報會上,DeepMind首席技術專家科雷·卡武庫庫奧盧(Koray Kavukcuoglu)舉例說明:當輸入「關於蛋白質摺疊的黏土動畫解說」時,Omni迅速生成了一段定格動畫影片,並配有旁白解說:「蛋白質最初是由胺基酸鏈組成。它們會摺疊成α螺旋和稱為β摺疊的平面結構,最終形成精確的三維形狀。」
Omni 的長期願景更為廣泛,涵蓋從音訊生成圖像或從影片生成音訊等能力。
「當我們首次發表 Gemini 時,那是我們首個原生多模態 AI 模型,」皮查伊在簡報會中表示。「我們知道,透過結合文字、程式碼、音訊、圖像和影片來訓練它,將能讓它對世界有更深入的理解。藉由世界模型,AI 正從預測文字演進到模擬現實。Gemini Omni 正是朝著這個方向邁出的下一步。」
作為本次發布的一部分,使用者還將能夠創建以自身數位化身為主角的影片——這項功能是由 OpenAI 現已停用的 Sora 應用程式與 Cameos 合作所推廣的。根據布里希托娃(Brichtova)的說法,為防止深度偽造(deepfakes),使用者必須完成專門的註冊流程,其中包括錄製自己朗讀一串數字的過程。隨後,該化身將被儲存以供日後使用。
此外,所有透過 Omni 製作的影片都將包含 Google 的 SynthID 數位浮水印,讓使用者能驗證內容是否由 Gemini 產品生成。
該系列的首款模型是 Gemini Omni Flash,今日將於 Gemini 應用程式、YouTube Shorts 以及 AI 創意工作室 Flow 正式上線。Flash 能夠渲染 10 秒的影片。Brichtova 澄清,此長度並非模型的限制,而是為了擴大普及度所做的策略性決定,因為預期目前多數用戶偏好較短的影片片段。支援較長影片的功能預計將於近期推出。
Google 似乎主要將 Omni Flash 定位為消費者工具。在與 TechCrunch 的通話中,Brichtova 和 DeepMind 研究工程師 Gabe Barth-Maron 描述了虛擬化身的個人化應用場景,例如製作自己獲獎或造訪月球的影片,或是從度假影片背景中移除路人。
巴斯-馬隆簡潔地總結道:「它們就像是個人化的迷因。」
「我們確實致力於讓消費者能輕鬆使用這項功能,」Brichtova 表示。「目前鮮少有影片模型成功跨足主流消費市場,因此這是我們嘗試突破的契機。」
這種易用性伴隨著一項限制:布里希托娃和巴斯-馬隆指出,編輯提示必須非常具體。否則,Omni 可能會過度編輯,或無意中修改用戶原本想保留的元素——這也是 Nano Banana 用戶面臨的挑戰。

圖片來源:Google
儘管 Omni 目前主要鎖定消費市場,但其在企業與創意應用領域的潛力顯而易見。Google 將於未來幾週透過 API 開放 Omni 服務。這項已於 Shorts 平台推出的虛擬形象生成工具,預期將在內容創作者間引發熱潮。更廣泛而言,端到端的跨模態工作流程有望徹底改變廣告與電影製作產業。
新創公司 Luma AI 正開發一款類似的代理工具,該工具由其自有的「統一」模型驅動,能夠根據簡報和產品圖片生成完整的廣告活動。
「我們其實相當自豪於該模型的文字渲染能力,這對於廣告等應用非常有用,」Brichtova 表示。「無論是產品置入還是單純的標語,準確性都至關重要……我們確實預期電影製作人及其他創作者也會採用這個模型。」
對於更專業的應用場景,即將推出的 Omni Pro 模型或許能提供更好的解決方案,該模型旨在於所有 Omni 任務中展現卓越的表現。Google 尚未公布 Pro 版的發布日期,但 Brichtova 表示,當「我們在功能上實現超越 Flash 的重大飛躍」時,該模型便會推出。
Google 相片運用人工智慧,讓《窈窕淑女》中那座標誌性的衣櫥栩栩如生
Google Photos 於週三宣布了一項由人工智慧驅動的新功能,這項功能將很快能將您衣物的照片轉化為數位衣櫥,讓您能創造嶄新的穿搭組合,甚至進行虛擬試穿。這個概念顯然是受到電影《窈窕淑女》中 Cher 那座標誌性的虛擬衣櫥啟發,她在片中可以瀏覽眾多服裝組合,同時決定該穿什麼。Google表示,這項功能將運用AI技術,根據您Google相簿圖庫中的衣物,自動建立您的衣櫥數位副本。在應用程式內,您
Google I/O 2026 發表了與 Gmail 收件匣的語音互動功能
Google 持續將人工智慧整合至您的收件匣中。在週二舉行的 IO 2026 開發者大會上,該公司透過對話式人工智慧擴充了 Gmail 的「AI 收件匣」功能,讓使用者能針對收件匣內容提出問題,而非僅依賴搜尋關鍵字。據 Google 表示,這項由 Gemini AI 驅動的工具名為「Gmail Live」,能協助使用者快速找出埋藏在收件匣中的資訊。圖片來源:Google舉例來說,您可能需要查詢即將
Google 在印度的 Chrome 瀏覽器中推出 Gemini
週三,Google 宣布將把 Chrome 瀏覽器的 Gemini 整合功能擴展至新地區,包括印度、加拿大和新西蘭。此項更新讓桌面版使用者能透過側邊欄存取 Gemini,藉此向 Google 的 AI 聊天機器人詢問螢幕上的內容、從 Gmail、Keep、Drive 和 YouTube 檢索資訊,以及比較不同分頁的內容。隨著此次擴展,Gemini 除英語及近期新增的 Chrome 支援語言外,亦將





首頁






