Google 的 Gemini Omni 可根據圖片、音訊和文字生成影片

首頁

新聞

2026-05-26

EmmaJohnson

# Google # veo # google io 2026 # google gemini omni # gemini omni flash

三年前，Google 推出了 Gemini，旨在開發一種多模態大型語言模型——這是一種經過文字、圖像、音訊和影片訓練的統一神經網路，能夠生成涵蓋所有這些格式的內容。

在今日舉行的 Google I/O 開發者大會上，該公司透過全新多模態模型系列「Gemini Omni」朝此願景邁進。Google 執行長桑達爾·皮查伊（Sundar Pichai）表示，Omni 將賦予使用者「從任何輸入內容創造任何事物」的能力。

Omni 初期將聚焦於影片領域。使用者現在可以結合圖像、音訊、影片和文字。Omni 並非僅將這些元素拼湊在一起，而是能跨所有模態進行智能推理，以產生連貫的輸出結果。這將產出高品質的影片，展現對物理、文化、歷史和科學的理解。

Omni 還讓使用者能透過簡單的文字指令編輯照片，無需使用複雜的軟體，這與 Google 的 Nano Banana 工具類似。

Google 先前已推出專用影片模型 Veo，能將文字與圖像轉化為影片，並支援對虛擬角色進行導演指導與自訂。然而，Google DeepMind 產品管理總監 Nicole Brichtova 強調，此次發布不僅是 Veo 的更新：「這是將 Gemini 的智慧與我們媒體模型的渲染能力相融合的下一步。」

在週一的媒體簡報會上，DeepMind首席技術專家科雷·卡武庫庫奧盧（Koray Kavukcuoglu）舉例說明：當輸入「關於蛋白質摺疊的黏土動畫解說」時，Omni迅速生成了一段定格動畫影片，並配有旁白解說：「蛋白質最初是由胺基酸鏈組成。它們會摺疊成α螺旋和稱為β摺疊的平面結構，最終形成精確的三維形狀。」

Omni 的長期願景更為廣泛，涵蓋從音訊生成圖像或從影片生成音訊等能力。

「當我們首次發表 Gemini 時，那是我們首個原生多模態 AI 模型，」皮查伊在簡報會中表示。「我們知道，透過結合文字、程式碼、音訊、圖像和影片來訓練它，將能讓它對世界有更深入的理解。藉由世界模型，AI 正從預測文字演進到模擬現實。Gemini Omni 正是朝著這個方向邁出的下一步。」

作為本次發布的一部分，使用者還將能夠創建以自身數位化身為主角的影片——這項功能是由 OpenAI 現已停用的 Sora 應用程式與 Cameos 合作所推廣的。根據布里希托娃（Brichtova）的說法，為防止深度偽造（deepfakes），使用者必須完成專門的註冊流程，其中包括錄製自己朗讀一串數字的過程。隨後，該化身將被儲存以供日後使用。

此外，所有透過 Omni 製作的影片都將包含 Google 的 SynthID 數位浮水印，讓使用者能驗證內容是否由 Gemini 產品生成。

該系列的首款模型是 Gemini Omni Flash，今日將於 Gemini 應用程式、YouTube Shorts 以及 AI 創意工作室 Flow 正式上線。Flash 能夠渲染 10 秒的影片。Brichtova 澄清，此長度並非模型的限制，而是為了擴大普及度所做的策略性決定，因為預期目前多數用戶偏好較短的影片片段。支援較長影片的功能預計將於近期推出。

Google 似乎主要將 Omni Flash 定位為消費者工具。在與 TechCrunch 的通話中，Brichtova 和 DeepMind 研究工程師 Gabe Barth-Maron 描述了虛擬化身的個人化應用場景，例如製作自己獲獎或造訪月球的影片，或是從度假影片背景中移除路人。

巴斯-馬隆簡潔地總結道：「它們就像是個人化的迷因。」

「我們確實致力於讓消費者能輕鬆使用這項功能，」Brichtova 表示。「目前鮮少有影片模型成功跨足主流消費市場，因此這是我們嘗試突破的契機。」

這種易用性伴隨著一項限制：布里希托娃和巴斯-馬隆指出，編輯提示必須非常具體。否則，Omni 可能會過度編輯，或無意中修改用戶原本想保留的元素——這也是 Nano Banana 用戶面臨的挑戰。

Google 的 Gemini Omni 能將圖像、音訊和文字轉化為影片——而這才只是個開始

圖片來源：Google

儘管 Omni 目前主要鎖定消費市場，但其在企業與創意應用領域的潛力顯而易見。Google 將於未來幾週透過 API 開放 Omni 服務。這項已於 Shorts 平台推出的虛擬形象生成工具，預期將在內容創作者間引發熱潮。更廣泛而言，端到端的跨模態工作流程有望徹底改變廣告與電影製作產業。

新創公司 Luma AI 正開發一款類似的代理工具，該工具由其自有的「統一」模型驅動，能夠根據簡報和產品圖片生成完整的廣告活動。

「我們其實相當自豪於該模型的文字渲染能力，這對於廣告等應用非常有用，」Brichtova 表示。「無論是產品置入還是單純的標語，準確性都至關重要……我們確實預期電影製作人及其他創作者也會採用這個模型。」

對於更專業的應用場景，即將推出的 Omni Pro 模型或許能提供更好的解決方案，該模型旨在於所有 Omni 任務中展現卓越的表現。Google 尚未公布 Pro 版的發布日期，但 Brichtova 表示，當「我們在功能上實現超越 Flash 的重大飛躍」時，該模型便會推出。

Google 相片運用人工智慧，讓《窈窕淑女》中那座標誌性的衣櫥栩栩如生 Google Photos 於週三宣布了一項由人工智慧驅動的新功能，這項功能將很快能將您衣物的照片轉化為數位衣櫥，讓您能創造嶄新的穿搭組合，甚至進行虛擬試穿。這個概念顯然是受到電影《窈窕淑女》中 Cher 那座標誌性的虛擬衣櫥啟發，她在片中可以瀏覽眾多服裝組合，同時決定該穿什麼。Google表示，這項功能將運用AI技術，根據您Google相簿圖庫中的衣物，自動建立您的衣櫥數位副本。在應用程式內，您

Google I/O 2026 發表了與 Gmail 收件匣的語音互動功能 Google 持續將人工智慧整合至您的收件匣中。在週二舉行的 IO 2026 開發者大會上，該公司透過對話式人工智慧擴充了 Gmail 的「AI 收件匣」功能，讓使用者能針對收件匣內容提出問題，而非僅依賴搜尋關鍵字。據 Google 表示，這項由 Gemini AI 驅動的工具名為「Gmail Live」，能協助使用者快速找出埋藏在收件匣中的資訊。圖片來源：Google舉例來說，您可能需要查詢即將

Google 在印度的 Chrome 瀏覽器中推出 Gemini 週三，Google 宣布將把 Chrome 瀏覽器的 Gemini 整合功能擴展至新地區，包括印度、加拿大和新西蘭。此項更新讓桌面版使用者能透過側邊欄存取 Gemini，藉此向 Google 的 AI 聊天機器人詢問螢幕上的內容、從 Gmail、Keep、Drive 和 YouTube 檢索資訊，以及比較不同分頁的內容。隨著此次擴展，Gemini 除英語及近期新增的 Chrome 支援語言外，亦將

相關專題推薦

搜索引擎優化

最佳AI重定向與失效連結查詢工具：自動修復爬取錯誤，節省爬取預算

在XIX.AI上，發現2026年最優秀的人工智慧重定向工具和失效連結查詢工具。我們精心挑選的這些高評分工具能夠自動修復爬取錯誤，從而幫助您節省爬取預算。透過實際測試和每週更新的排名資訊，您可以比較免費選項和付費選項，立即找到最適合您的SEO解決方案！

10 個工具

xix.ai

視頻創作

播客創作者首選的頂尖 AI 影片製作工具：將音訊波形轉化為引人入勝的談話頭像影片

立即前往 XIX.AI，探索 2026 年最適合播客的頂尖 AI 影片製作工具。我們精心挑選並評選出的這份榜單，收錄了多款強大工具，能輕鬆將您的音訊轉化為引人入勝的談話頭像影片。透過實際測試與每週更新的排行榜，比較免費與付費選項的差異。立即解鎖您的視覺敘事優勢。

10 個工具

xix.ai

聊天機器人

利用這些角色扮演工具，打造屬於你的 AI 愛情故事

探索 2026 年最新、評價最高的 AI 角色扮演工具，打造身臨其境的敘事體驗。XIX.AI 精心整理的清單收錄了多款功能強大、能徹底改變遊戲規則的助手，助您釋放創意敘事潛能並增添情感深度。透過實際測試，比較免費與付費選項的差異。立即展開您的獨特旅程。

10 個工具

xix.ai

文字轉語音

獨立遊戲開發者必備的頂尖 AI 配音工具：為 RPG 與視覺小說節省配音時間

探索 2026 年最適合遊戲開發者的 AI 配音工具！XIX.AI 精心整理的清單收錄了備受好評、能徹底改變遊戲開發模式的解決方案，助您在角色扮演遊戲（RPG）和視覺小說（Visual Novel）的配音製作上節省時間與成本。探索免費與付費版本的比較、實際測試結果，以及每週更新的排行榜。立即找到最適合您的配音工具！

10 個工具

xix.ai

教育與學習