谷歌的Gemini Omni能根据图片、音频和文本生成视频

首页

新闻

2026-05-26

EmmaJohnson

# Google # veo # google io 2026 # google gemini omni # gemini omni flash

三年前，谷歌推出了Gemini，旨在开发一种多模态大型语言模型——这是一种经过文本、图像、音频和视频训练的统一神经网络，能够生成涵盖所有这些格式的内容。

在今天的Google I/O开发者大会上，该公司通过推出名为Gemini Omni的新一代多模态模型系列，向这一愿景迈进了一步。谷歌首席执行官桑达尔·皮查伊表示，Omni将赋能用户“基于任何输入内容进行创作”。

Omni的初期重点在于视频。用户现在可以组合图像、音频、视频和文本。Omni并非仅仅将这些元素拼接在一起，而是通过跨模态的智能推理生成连贯的输出结果。由此生成的视频质量极高，展现出对物理、文化、历史和科学的深刻理解。

Omni还支持用户通过简单的文本指令编辑照片，无需使用复杂的软件，这与谷歌的Nano Banana工具类似。

谷歌此前已推出Veo——一款专用的视频生成模型，可将文本和图像转化为视频，并支持用户指导和自定义虚拟形象。然而，谷歌DeepMind产品管理总监Nicole Brichtova强调，此次发布不仅是Veo的更新：“这是将Gemini的智能与我们媒体模型的渲染能力相结合的又一重要步骤。”

在周一的媒体简报会上，DeepMind首席技术官科雷·卡武库乔格鲁（Koray Kavukcuoglu）举了一个例子：当被提示“制作一个关于蛋白质折叠的黏土动画讲解视频”时，Omni迅速生成了一段定格动画视频，配音解说称：“蛋白质最初是由氨基酸链组成的。它们折叠成α螺旋和被称为β折叠的平面结构，最终形成精确的三维形状。”

Omni的长期愿景更为宏大，涵盖了从音频生成图像或从视频生成音频等功能。

“当初我们首次发布Gemini时，它就是我们首个原生多模态AI模型，”皮查伊在简报会上表示。“我们深知，通过结合文本、代码、音频、图像和视频进行训练，将使模型对世界的理解更加深刻。借助世界模型，AI正从预测文本向模拟现实演进。Gemini Omni正是朝着这一方向迈出的下一步。”

作为此次发布的一部分，用户还将能够创建包含自己数字化身（avatar）的视频——这一功能曾由OpenAI现已停用的Sora应用（通过Cameos）推广开来。据布里赫托娃介绍，为防止深度伪造（deepfakes），用户必须完成专门的注册流程，其中包括录制自己朗读一串数字的过程。随后，该化身将被保存以备将来使用。

此外，所有通过Omni生成的视频都将包含谷歌的SynthID数字水印，用户可据此验证内容是否由Gemini产品生成。

该系列的首款模型是 Gemini Omni Flash，今日已在 Gemini 应用、YouTube Shorts 以及 AI 创意工作室 Flow 上推出。Flash 可以渲染 10 秒的视频。Brichtova 澄清说，这一时长并非模型的限制，而是为了扩大适用范围而做出的战略决策，因为预计目前大多数用户更喜欢较短的片段。计划在不久的将来支持更长的视频。

谷歌似乎主要将Omni Flash定位为面向消费者的工具。在与TechCrunch的通话中，Brichtova和DeepMind研究工程师Gabe Barth-Maron描述了虚拟形象的个人化应用场景，例如制作自己获奖或登月的视频，或是从度假视频背景中移除路人。

巴斯-马龙对此进行了精辟总结：“它们就像个性化的网络梗。”

“我们确实致力于让消费者能轻松使用这项功能，”Brichtova表示。“目前鲜有视频模型成功进军主流消费市场，因此这是我们为此做出的尝试。”

这种易用性有一个前提：布里赫托娃和巴斯-马龙指出，编辑提示必须非常具体。否则，Omni可能会过度编辑，或无意中修改用户本想保留的元素——这也是Nano Banana用户面临的挑战。

图片来源：Google

尽管Omni目前主要面向消费者，但其在企业级和创意领域的应用潜力显而易见。谷歌将在未来几周内通过API开放Omni。这款已在Shorts上线的虚拟形象生成工具，预计将在内容创作者中获得广泛关注。更广泛而言，端到端的跨模态工作流有望彻底改变广告和电影制作行业。

初创公司 Luma AI 正在开发一款类似的智能工具，该工具基于其自主研发的“统一”模型，能够根据简报和产品图片生成完整的广告活动。

“我们其实对该模型的文本渲染能力颇为自豪，这对广告等应用非常有用，”布里赫托娃表示。“无论是产品植入还是仅仅需要一句标语，准确性都至关重要……我们当然也期待电影制作人及其他创作者会采用这个模型。”

对于更专业的应用场景，即将推出的 Omni Pro 模型或许能提供更好的支持，该模型旨在为所有 Omni 任务提供卓越的性能。谷歌尚未公布 Pro 版本的发布日期，但布里赫托娃表示，当“我们在能力上实现超越 Flash 的重大飞跃”时，该版本就会推出。

Google 相册借助人工智能，将《绯闻女孩》中那间标志性的衣帽间重现于世谷歌相册于周三宣布推出一项基于人工智能的新功能，该功能将很快把你的服装照片转化为一个数字衣橱，让你能够搭配出全新的穿搭组合，甚至可以进行虚拟试穿。这一概念显然借鉴了电影《绯闻女孩》中雪儿（Cher）那标志性的虚拟衣橱，她在其中可以浏览众多套装，从而决定穿什么。谷歌表示，该功能将利用人工智能技术，根据用户Google相册中的衣物自动构建一个数字衣橱。在应用内，用户可以按类别（如上装、下装、首饰等）筛

Google I/O 2026 发布 Gmail 收件箱语音交互功能谷歌正持续将人工智能融入用户的收件箱。在周二举行的IO 2026开发者大会上，该公司通过对话式人工智能扩展了Gmail的“AI收件箱”功能，让用户能够针对收件箱内容提出问题，而不再仅依赖搜索关键词。据谷歌介绍，这款由Gemini AI驱动的工具名为Gmail Live，可帮助用户快速定位收件箱中被埋没的信息。图片来源：谷歌例如，您可能需要查询即将出发的航班详情、牙医预约时间、爱彼迎（Airbnb）

谷歌在印度的Chrome浏览器中推出Gemini 周三，谷歌宣布将把Chrome浏览器中Gemini的集成功能扩展至印度、加拿大和新西兰等新地区。此次更新使桌面端用户能够通过侧边栏访问Gemini，用户可通过该功能向谷歌的AI聊天机器人咨询屏幕上的内容，从Gmail、Keep、Drive和YouTube中检索信息，并比较不同标签页的内容。随着此次扩展，除了英语和近期新增的Chrome支持语言外，Gemini还将支持印地语、孟加拉语、古吉拉特语、卡

相关专题推荐

文字转语音

独立游戏开发者必备的顶级AI配音工具：为RPG和视觉小说节省配音时间

探索2026年最适合游戏开发者的AI配音工具！XIX.AI精心整理的这份清单汇集了广受好评、能彻底改变游戏开发格局的解决方案，助您在角色扮演游戏（RPG）和视觉小说的配音制作中节省时间和成本。了解免费与付费版本的对比分析、实际测试结果以及每周更新的排行榜。立即找到最适合您的配音工具吧！

10 个工具

xix.ai

教育与学习

最佳人工智能间隔重复学习工具：帮助医学生和法律专业学生优化学习计划

探索由 XIX.AI 精心挑选的 2026 年最佳 AI 间隔重复学习工具。我们推荐的这些极具创新性的工具能帮助医学和法律专业的学生优化学习计划，从而提高知识记忆效果。通过真实案例测试和每周更新的排名信息，你可以了解免费选项与付费选项之间的差异。现在就开启你的学习优势吧！

10 个工具

xix.ai

视频创作

最适合剧本创作和视觉叙事的AI文本转视频平台

2026年最新最佳AI文字转视频平台：备受好评的剧本创作与视觉叙事工具。探索这些功能强大、颠覆传统的解决方案，将您的文字转化为引人入胜的视频。通过我们每周更新的排行榜和实际测试，对比免费与付费选项。找到最适合您的平台，激发创意，提升效率。立即访问XIX.AI，探索精心精选的优质平台。

10 个工具

xix.ai

聊天机器人

AI多智能体编排器：通过自然语言设计复杂的自动化工作流程

2026最新资讯：探索最优秀的人工智能多智能体协调工具，通过自然语言设计复杂的自动化工作流程。我们精心挑选的列表中包含了评分最高、功能强大的平台，这些平台能够实现无缝的任务自动化和智能化的流程管理。对比免费与付费选项，并了解实际应用中的效果。借助XIX.AI每周更新的专家排名，让你在人工智能领域取得领先优势。

10 个工具

xix.ai

图像编辑