谷歌的Gemini Omni能根据图片、音频和文本生成视频
三年前,谷歌推出了Gemini,旨在开发一种多模态大型语言模型——这是一种经过文本、图像、音频和视频训练的统一神经网络,能够生成涵盖所有这些格式的内容。
在今天的Google I/O开发者大会上,该公司通过推出名为Gemini Omni的新一代多模态模型系列,向这一愿景迈进了一步。谷歌首席执行官桑达尔·皮查伊表示,Omni将赋能用户“基于任何输入内容进行创作”。
Omni的初期重点在于视频。用户现在可以组合图像、音频、视频和文本。Omni并非仅仅将这些元素拼接在一起,而是通过跨模态的智能推理生成连贯的输出结果。由此生成的视频质量极高,展现出对物理、文化、历史和科学的深刻理解。
Omni还支持用户通过简单的文本指令编辑照片,无需使用复杂的软件,这与谷歌的Nano Banana工具类似。
谷歌此前已推出Veo——一款专用的视频生成模型,可将文本和图像转化为视频,并支持用户指导和自定义虚拟形象。然而,谷歌DeepMind产品管理总监Nicole Brichtova强调,此次发布不仅是Veo的更新:“这是将Gemini的智能与我们媒体模型的渲染能力相结合的又一重要步骤。”
在周一的媒体简报会上,DeepMind首席技术官科雷·卡武库乔格鲁(Koray Kavukcuoglu)举了一个例子:当被提示“制作一个关于蛋白质折叠的黏土动画讲解视频”时,Omni迅速生成了一段定格动画视频,配音解说称:“蛋白质最初是由氨基酸链组成的。它们折叠成α螺旋和被称为β折叠的平面结构,最终形成精确的三维形状。”
Omni的长期愿景更为宏大,涵盖了从音频生成图像或从视频生成音频等功能。
“当初我们首次发布Gemini时,它就是我们首个原生多模态AI模型,”皮查伊在简报会上表示。“我们深知,通过结合文本、代码、音频、图像和视频进行训练,将使模型对世界的理解更加深刻。借助世界模型,AI正从预测文本向模拟现实演进。Gemini Omni正是朝着这一方向迈出的下一步。”
作为此次发布的一部分,用户还将能够创建包含自己数字化身(avatar)的视频——这一功能曾由OpenAI现已停用的Sora应用(通过Cameos)推广开来。据布里赫托娃介绍,为防止深度伪造(deepfakes),用户必须完成专门的注册流程,其中包括录制自己朗读一串数字的过程。随后,该化身将被保存以备将来使用。
此外,所有通过Omni生成的视频都将包含谷歌的SynthID数字水印,用户可据此验证内容是否由Gemini产品生成。
该系列的首款模型是 Gemini Omni Flash,今日已在 Gemini 应用、YouTube Shorts 以及 AI 创意工作室 Flow 上推出。Flash 可以渲染 10 秒的视频。Brichtova 澄清说,这一时长并非模型的限制,而是为了扩大适用范围而做出的战略决策,因为预计目前大多数用户更喜欢较短的片段。计划在不久的将来支持更长的视频。
谷歌似乎主要将Omni Flash定位为面向消费者的工具。在与TechCrunch的通话中,Brichtova和DeepMind研究工程师Gabe Barth-Maron描述了虚拟形象的个人化应用场景,例如制作自己获奖或登月的视频,或是从度假视频背景中移除路人。
巴斯-马龙对此进行了精辟总结:“它们就像个性化的网络梗。”
“我们确实致力于让消费者能轻松使用这项功能,”Brichtova表示。“目前鲜有视频模型成功进军主流消费市场,因此这是我们为此做出的尝试。”
这种易用性有一个前提:布里赫托娃和巴斯-马龙指出,编辑提示必须非常具体。否则,Omni可能会过度编辑,或无意中修改用户本想保留的元素——这也是Nano Banana用户面临的挑战。

图片来源:Google
尽管Omni目前主要面向消费者,但其在企业级和创意领域的应用潜力显而易见。谷歌将在未来几周内通过API开放Omni。这款已在Shorts上线的虚拟形象生成工具,预计将在内容创作者中获得广泛关注。更广泛而言,端到端的跨模态工作流有望彻底改变广告和电影制作行业。
初创公司 Luma AI 正在开发一款类似的智能工具,该工具基于其自主研发的“统一”模型,能够根据简报和产品图片生成完整的广告活动。
“我们其实对该模型的文本渲染能力颇为自豪,这对广告等应用非常有用,”布里赫托娃表示。“无论是产品植入还是仅仅需要一句标语,准确性都至关重要……我们当然也期待电影制作人及其他创作者会采用这个模型。”
对于更专业的应用场景,即将推出的 Omni Pro 模型或许能提供更好的支持,该模型旨在为所有 Omni 任务提供卓越的性能。谷歌尚未公布 Pro 版本的发布日期,但布里赫托娃表示,当“我们在能力上实现超越 Flash 的重大飞跃”时,该版本就会推出。
相关文章
Google 相册借助人工智能,将《绯闻女孩》中那间标志性的衣帽间重现于世
谷歌相册于周三宣布推出一项基于人工智能的新功能,该功能将很快把你的服装照片转化为一个数字衣橱,让你能够搭配出全新的穿搭组合,甚至可以进行虚拟试穿。这一概念显然借鉴了电影《绯闻女孩》中雪儿(Cher)那标志性的虚拟衣橱,她在其中可以浏览众多套装,从而决定穿什么。谷歌表示,该功能将利用人工智能技术,根据用户Google相册中的衣物自动构建一个数字衣橱。在应用内,用户可以按类别(如上装、下装、首饰等)筛
Google I/O 2026 发布 Gmail 收件箱语音交互功能
谷歌正持续将人工智能融入用户的收件箱。在周二举行的IO 2026开发者大会上,该公司通过对话式人工智能扩展了Gmail的“AI收件箱”功能,让用户能够针对收件箱内容提出问题,而不再仅依赖搜索关键词。据谷歌介绍,这款由Gemini AI驱动的工具名为Gmail Live,可帮助用户快速定位收件箱中被埋没的信息。图片来源:谷歌例如,您可能需要查询即将出发的航班详情、牙医预约时间、爱彼迎(Airbnb)
谷歌在印度的Chrome浏览器中推出Gemini
周三,谷歌宣布将把Chrome浏览器中Gemini的集成功能扩展至印度、加拿大和新西兰等新地区。此次更新使桌面端用户能够通过侧边栏访问Gemini,用户可通过该功能向谷歌的AI聊天机器人咨询屏幕上的内容,从Gmail、Keep、Drive和YouTube中检索信息,并比较不同标签页的内容。随着此次扩展,除了英语和近期新增的Chrome支持语言外,Gemini还将支持印地语、孟加拉语、古吉拉特语、卡
相关专题推荐
评论 (0)
0/500
三年前,谷歌推出了Gemini,旨在开发一种多模态大型语言模型——这是一种经过文本、图像、音频和视频训练的统一神经网络,能够生成涵盖所有这些格式的内容。
在今天的Google I/O开发者大会上,该公司通过推出名为Gemini Omni的新一代多模态模型系列,向这一愿景迈进了一步。谷歌首席执行官桑达尔·皮查伊表示,Omni将赋能用户“基于任何输入内容进行创作”。
Omni的初期重点在于视频。用户现在可以组合图像、音频、视频和文本。Omni并非仅仅将这些元素拼接在一起,而是通过跨模态的智能推理生成连贯的输出结果。由此生成的视频质量极高,展现出对物理、文化、历史和科学的深刻理解。
Omni还支持用户通过简单的文本指令编辑照片,无需使用复杂的软件,这与谷歌的Nano Banana工具类似。
谷歌此前已推出Veo——一款专用的视频生成模型,可将文本和图像转化为视频,并支持用户指导和自定义虚拟形象。然而,谷歌DeepMind产品管理总监Nicole Brichtova强调,此次发布不仅是Veo的更新:“这是将Gemini的智能与我们媒体模型的渲染能力相结合的又一重要步骤。”
在周一的媒体简报会上,DeepMind首席技术官科雷·卡武库乔格鲁(Koray Kavukcuoglu)举了一个例子:当被提示“制作一个关于蛋白质折叠的黏土动画讲解视频”时,Omni迅速生成了一段定格动画视频,配音解说称:“蛋白质最初是由氨基酸链组成的。它们折叠成α螺旋和被称为β折叠的平面结构,最终形成精确的三维形状。”
Omni的长期愿景更为宏大,涵盖了从音频生成图像或从视频生成音频等功能。
“当初我们首次发布Gemini时,它就是我们首个原生多模态AI模型,”皮查伊在简报会上表示。“我们深知,通过结合文本、代码、音频、图像和视频进行训练,将使模型对世界的理解更加深刻。借助世界模型,AI正从预测文本向模拟现实演进。Gemini Omni正是朝着这一方向迈出的下一步。”
作为此次发布的一部分,用户还将能够创建包含自己数字化身(avatar)的视频——这一功能曾由OpenAI现已停用的Sora应用(通过Cameos)推广开来。据布里赫托娃介绍,为防止深度伪造(deepfakes),用户必须完成专门的注册流程,其中包括录制自己朗读一串数字的过程。随后,该化身将被保存以备将来使用。
此外,所有通过Omni生成的视频都将包含谷歌的SynthID数字水印,用户可据此验证内容是否由Gemini产品生成。
该系列的首款模型是 Gemini Omni Flash,今日已在 Gemini 应用、YouTube Shorts 以及 AI 创意工作室 Flow 上推出。Flash 可以渲染 10 秒的视频。Brichtova 澄清说,这一时长并非模型的限制,而是为了扩大适用范围而做出的战略决策,因为预计目前大多数用户更喜欢较短的片段。计划在不久的将来支持更长的视频。
谷歌似乎主要将Omni Flash定位为面向消费者的工具。在与TechCrunch的通话中,Brichtova和DeepMind研究工程师Gabe Barth-Maron描述了虚拟形象的个人化应用场景,例如制作自己获奖或登月的视频,或是从度假视频背景中移除路人。
巴斯-马龙对此进行了精辟总结:“它们就像个性化的网络梗。”
“我们确实致力于让消费者能轻松使用这项功能,”Brichtova表示。“目前鲜有视频模型成功进军主流消费市场,因此这是我们为此做出的尝试。”
这种易用性有一个前提:布里赫托娃和巴斯-马龙指出,编辑提示必须非常具体。否则,Omni可能会过度编辑,或无意中修改用户本想保留的元素——这也是Nano Banana用户面临的挑战。

图片来源:Google
尽管Omni目前主要面向消费者,但其在企业级和创意领域的应用潜力显而易见。谷歌将在未来几周内通过API开放Omni。这款已在Shorts上线的虚拟形象生成工具,预计将在内容创作者中获得广泛关注。更广泛而言,端到端的跨模态工作流有望彻底改变广告和电影制作行业。
初创公司 Luma AI 正在开发一款类似的智能工具,该工具基于其自主研发的“统一”模型,能够根据简报和产品图片生成完整的广告活动。
“我们其实对该模型的文本渲染能力颇为自豪,这对广告等应用非常有用,”布里赫托娃表示。“无论是产品植入还是仅仅需要一句标语,准确性都至关重要……我们当然也期待电影制作人及其他创作者会采用这个模型。”
对于更专业的应用场景,即将推出的 Omni Pro 模型或许能提供更好的支持,该模型旨在为所有 Omni 任务提供卓越的性能。谷歌尚未公布 Pro 版本的发布日期,但布里赫托娃表示,当“我们在能力上实现超越 Flash 的重大飞跃”时,该版本就会推出。
Google 相册借助人工智能,将《绯闻女孩》中那间标志性的衣帽间重现于世
谷歌相册于周三宣布推出一项基于人工智能的新功能,该功能将很快把你的服装照片转化为一个数字衣橱,让你能够搭配出全新的穿搭组合,甚至可以进行虚拟试穿。这一概念显然借鉴了电影《绯闻女孩》中雪儿(Cher)那标志性的虚拟衣橱,她在其中可以浏览众多套装,从而决定穿什么。谷歌表示,该功能将利用人工智能技术,根据用户Google相册中的衣物自动构建一个数字衣橱。在应用内,用户可以按类别(如上装、下装、首饰等)筛
Google I/O 2026 发布 Gmail 收件箱语音交互功能
谷歌正持续将人工智能融入用户的收件箱。在周二举行的IO 2026开发者大会上,该公司通过对话式人工智能扩展了Gmail的“AI收件箱”功能,让用户能够针对收件箱内容提出问题,而不再仅依赖搜索关键词。据谷歌介绍,这款由Gemini AI驱动的工具名为Gmail Live,可帮助用户快速定位收件箱中被埋没的信息。图片来源:谷歌例如,您可能需要查询即将出发的航班详情、牙医预约时间、爱彼迎(Airbnb)
谷歌在印度的Chrome浏览器中推出Gemini
周三,谷歌宣布将把Chrome浏览器中Gemini的集成功能扩展至印度、加拿大和新西兰等新地区。此次更新使桌面端用户能够通过侧边栏访问Gemini,用户可通过该功能向谷歌的AI聊天机器人咨询屏幕上的内容,从Gmail、Keep、Drive和YouTube中检索信息,并比较不同标签页的内容。随着此次扩展,除了英语和近期新增的Chrome支持语言外,Gemini还将支持印地语、孟加拉语、古吉拉特语、卡





首页






