“ 8种新的AI产品和更新测试”

在 I/O 大会上,我们不仅仅是发布一系列更新,如新的 Gemini 模型、AI 代理和 Android 调整,我们实际上还让开发者、记者和合作伙伴通过亲手体验产品演示来深入参与。今年,我在 Shoreline 露天剧场度过了一天,那里是 I/O 大会的举办地,我体验了许多这样的演示。以下是其中几个的简要介绍。
我当天的第一个演示非常酷。我看到 Gemini Advanced 处理了一份超过 20 页的物业租赁合同,里面全是法律术语和复杂的条款。在它处理完文档后,我可以提出问题,比如房东是否允许我养宠物狗,或者是否有额外的费用需要支付。我已经期待用这个功能来理解我下次续租公寓时的租赁合同。
接下来,演示变得更加令人印象深刻。两位 Googler 向 Gemini 输入了一本数百页的经济学教科书的 PDF。我需要花很长时间才能读完,但 Gemini 迅速生成了一份总结,并指出了需要学习的关键主题。它甚至还制作了一份多选题测验,包含一个正确答案和三个狡猾的错误答案,帮助我准备一个假设的考试。
Googler Sid Lall(左)和 Adam Kurzrok(右)展示 Gemini Advanced 如何总结一本厚重的经济学教科书或数千页的文档。
这两个演示都使用了 Gemini 1.5 Pro,这是我们今年早些时候推出的、拥有任何大规模基础模型中最长上下文窗口的模型。我们现在为 Gemini Advanced 订阅者推出 Gemini 1.5 Pro 的早期访问权限,让他们可以直接从 Drive 上传文档。这意味着他们可以使用 Gemini 总结或分析长达 1500 页的文档。
Gemini 1.5 Pro 还被集成到 Workspace 应用(如 Gmail、Docs、Sheets、Slides 和 Drive)的侧边栏中。我通过在 Gmail 中使用 Gemini 总结了一封样本周报邮件,亲眼见证了它的表现,它提取了具体细节,如七年级学生的活动和过夜旅行的打包清单。
Gemini 的侧边栏可以帮助您回答 Gmail、Drive 等内容中的关键问题。
改进的长上下文窗口甚至可以在响应单个提示时从多个文档中提取信息。在 Docs 中,我请求帮助撰写一封给潜在求职者的样本信,链接到 Drive 中的职位描述文档和申请者的 PDF 作品集。Gemini 立即起草了一封考虑了两个文档细节的邮件。
但 Gemini 1.5 Pro 并不是唯一的新成员。我还体验了新发布的 Imagen 3,这是我们迄今最好的文本到图像模型。我尝试的一个酷功能是它生成装饰性文本和字母的能力。我要求生成一个风格化的字母表,比如用果酱涂在吐司上的字母或漂浮在天空中的银色气球字母。Imagen 3 生成了一整套字母表,我可以用它们创建自己的(美味)菜单。
在玩完 Imagen 3 后,我又回到了更多的 Gemini 演示。一个演示让我在 Android 手机上调出 Gemini 的覆盖层,询问屏幕上的任何内容。这展示了我们不仅扩展了 Gemini 可以回答的内容,还使其具有上下文感知能力,预测您的需求并提供有用的建议。
这个演示以一份冗长的烤箱手册为例。我没有费力阅读文档,而是调出 Gemini,立即得到了“询问此 PDF”的建议。我问了像“如何更新时钟”这样的问题,得到了快速准确的回答。它在 YouTube 视频上也同样好用。我没有看完一个 20 分钟的锻炼视频,而是询问如何修改平板支撑,立即得到了答案,然后继续下一个演示。
下一个演示介绍了新的对话模式 Gemini Live,您可以在应用中无需打字即可与 Gemini 交谈。与 Gemini 交谈的感觉与通常的聊天机器人界面不同。它的回答更具对话性,不仅仅是段落文本或项目符号列表。在我的演示中,我请求了一份暑假儿童活动清单,并能在列出清单时打断,询问更多关于扎染衬衫所需材料的信息。
Project Astra 演示将事情提升到了一个新水平,展示了我们对话 AI 项目的未来方向。
我们的 AI 沙盒,开发者与参会者在此体验了 Project Astra 等演示和其他创意 AI 实验,如 MusicFX 的 DJ 模式。
不仅仅局限于屏幕上的内容或您输入到聊天框的内容,Astra 的多模态能力可以同时理解对话语音提示和实时视频输入,开启了新型的 AI 体验。
Astra 的头韵演示从简单开始:我向摄像头展示一个物体,如香蕉或一块面包,Gemini 会想出一句头韵句。当我添加更多物体时,Gemini 保持对话流畅,从单一水果的“明亮的香蕉在板上美丽地晒太阳”到面对整个自助餐板的“烹饪创作引人注目”。
Astra 与香蕉、长棍面包……以及您能展示的任何东西进行头韵创作。
另一个 Astra 演示让我与 Gemini 玩起了 Pictionary。这听起来简单,但需要代理理解图像,记住每轮绘图内容,并使用常识猜测我在画什么。在一个演示中,Astra 知道一个圆圈不足以做出猜测,但当我在下面添加线条时,它很快从识别一个火柴人到认出一个人举着骷髅表情符号是哈姆雷特。
Astra 在 Pictionary 中未尝败绩。
在 AI 沙盒和其他演示站点的体验就像窥见了未来。这也有点让人谦卑:Astra 在多轮 Pictionary 中击败了我!
相关文章
Meta 增强人工智能安全,推出高级 Llama 工具
Meta 发布了新的 Llama 安全工具,以加强人工智能开发并防御新兴威胁。这些升级的 Llama 人工智能模型安全工具与 Meta 的新资源相结合,旨在增强网络安全团队利用人工智能进行防御的能力,提升所有人工智能利益相关者的安全性。使用 Llama 模型的开发者现在可以直接在 Meta 的 Llama Protections 页面、Hugging Face 和 GitHub 上访问增强的工具。
NotebookLM推出顶级出版物和专家精选笔记本
谷歌正在增强其人工智能驱动的研究和笔记工具NotebookLM,使其成为一个综合知识中心。周一,该公司推出了一套由知名作者、出版物、研究人员和非营利组织精心策划的笔记本集合,使用户能够探索健康、旅行、财务等多样化主题。首批内容包括《经济学人》、《大西洋月刊》、知名教授、作者以及莎士比亚作品的贡献,展示了NotebookLM在深入主题探索中的实际应用。谷歌解释说,用户可以访问原始资料,提出问题,深入
阿里巴巴发布Wan2.1-VACE:开源AI视频解决方案
阿里巴巴推出了Wan2.1-VACE,这是一个开源AI模型,有望改变视频创作和编辑流程。VACE是阿里巴巴Wan2.1视频AI模型系列的关键组成部分,公司宣称这是“业内首个为多样化视频生成和编辑任务提供全面解决方案的开源模型。”如果阿里巴巴能够简化视频制作流程,将多种工具整合到一个单一平台上,可能会重新定义行业标准。VACE能做什么?它可以从多种输入生成视频,例如文本提示、静态图像或短视频片段。除
评论 (36)
0/200
WillWalker
2025-07-31 09:41:20
Whoa, hands-on demos at I/O sound epic! Tried any cool AI agents yet? Bet they’re game-changers for devs! 😎
0
JeffreyThomas
2025-04-21 09:33:38
¡Las demostraciones prácticas en I/O fueron una pasada! Pude probar los nuevos modelos Gemini y agentes de IA, que fueron bastante geniales pero un poco llenos de errores. Los ajustes de Android fueron un buen toque, sin embargo. En general, un día divertido en el Shoreline Amphitheatre, pero necesitan solucionar esos errores! 🤓
0
GregoryRodriguez
2025-04-20 00:24:35
I/O's hands-on approach with new AI products is awesome! Got to play around with the Gemini models and AI agents at Shoreline Amphitheatre. It's super engaging and you really get a feel for what's coming next. Only wish there was more time to explore everything! 🤓
0
ThomasYoung
2025-04-18 19:13:01
Os demos práticos no I/O foram incríveis! Consegui experimentar os novos modelos Gemini e agentes de IA, que foram bem legais, mas um pouco cheios de bugs. As melhorias no Android foram um toque agradável, no entanto. No geral, um dia divertido no Shoreline Amphitheatre, mas eles precisam corrigir esses bugs! 🤓
0
BrianThomas
2025-04-18 12:37:15
A abordagem prática do I/O com novos produtos de IA é incrível! Pude brincar com os modelos Gemini e agentes de IA no Shoreline Amphitheatre. É super envolvente e você realmente sente o que está por vir. Só queria ter mais tempo para explorar tudo! 😎
0
JackMartin
2025-04-16 09:18:17
I/Oでの新しいAI製品の体験は最高です!ジェミニモデルやAIエージェントをショアライン円形劇場で試せました。とても楽しく、次に何が来るのかを実感できます。もっと時間があれば全部を探検したいですね!😊
0
在 I/O 大会上,我们不仅仅是发布一系列更新,如新的 Gemini 模型、AI 代理和 Android 调整,我们实际上还让开发者、记者和合作伙伴通过亲手体验产品演示来深入参与。今年,我在 Shoreline 露天剧场度过了一天,那里是 I/O 大会的举办地,我体验了许多这样的演示。以下是其中几个的简要介绍。
我当天的第一个演示非常酷。我看到 Gemini Advanced 处理了一份超过 20 页的物业租赁合同,里面全是法律术语和复杂的条款。在它处理完文档后,我可以提出问题,比如房东是否允许我养宠物狗,或者是否有额外的费用需要支付。我已经期待用这个功能来理解我下次续租公寓时的租赁合同。
接下来,演示变得更加令人印象深刻。两位 Googler 向 Gemini 输入了一本数百页的经济学教科书的 PDF。我需要花很长时间才能读完,但 Gemini 迅速生成了一份总结,并指出了需要学习的关键主题。它甚至还制作了一份多选题测验,包含一个正确答案和三个狡猾的错误答案,帮助我准备一个假设的考试。
Gemini 1.5 Pro 还被集成到 Workspace 应用(如 Gmail、Docs、Sheets、Slides 和 Drive)的侧边栏中。我通过在 Gmail 中使用 Gemini 总结了一封样本周报邮件,亲眼见证了它的表现,它提取了具体细节,如七年级学生的活动和过夜旅行的打包清单。
改进的长上下文窗口甚至可以在响应单个提示时从多个文档中提取信息。在 Docs 中,我请求帮助撰写一封给潜在求职者的样本信,链接到 Drive 中的职位描述文档和申请者的 PDF 作品集。Gemini 立即起草了一封考虑了两个文档细节的邮件。
但 Gemini 1.5 Pro 并不是唯一的新成员。我还体验了新发布的 Imagen 3,这是我们迄今最好的文本到图像模型。我尝试的一个酷功能是它生成装饰性文本和字母的能力。我要求生成一个风格化的字母表,比如用果酱涂在吐司上的字母或漂浮在天空中的银色气球字母。Imagen 3 生成了一整套字母表,我可以用它们创建自己的(美味)菜单。
在玩完 Imagen 3 后,我又回到了更多的 Gemini 演示。一个演示让我在 Android 手机上调出 Gemini 的覆盖层,询问屏幕上的任何内容。这展示了我们不仅扩展了 Gemini 可以回答的内容,还使其具有上下文感知能力,预测您的需求并提供有用的建议。
这个演示以一份冗长的烤箱手册为例。我没有费力阅读文档,而是调出 Gemini,立即得到了“询问此 PDF”的建议。我问了像“如何更新时钟”这样的问题,得到了快速准确的回答。它在 YouTube 视频上也同样好用。我没有看完一个 20 分钟的锻炼视频,而是询问如何修改平板支撑,立即得到了答案,然后继续下一个演示。
下一个演示介绍了新的对话模式 Gemini Live,您可以在应用中无需打字即可与 Gemini 交谈。与 Gemini 交谈的感觉与通常的聊天机器人界面不同。它的回答更具对话性,不仅仅是段落文本或项目符号列表。在我的演示中,我请求了一份暑假儿童活动清单,并能在列出清单时打断,询问更多关于扎染衬衫所需材料的信息。
Project Astra 演示将事情提升到了一个新水平,展示了我们对话 AI 项目的未来方向。
Astra 的头韵演示从简单开始:我向摄像头展示一个物体,如香蕉或一块面包,Gemini 会想出一句头韵句。当我添加更多物体时,Gemini 保持对话流畅,从单一水果的“明亮的香蕉在板上美丽地晒太阳”到面对整个自助餐板的“烹饪创作引人注目”。


Whoa, hands-on demos at I/O sound epic! Tried any cool AI agents yet? Bet they’re game-changers for devs! 😎




¡Las demostraciones prácticas en I/O fueron una pasada! Pude probar los nuevos modelos Gemini y agentes de IA, que fueron bastante geniales pero un poco llenos de errores. Los ajustes de Android fueron un buen toque, sin embargo. En general, un día divertido en el Shoreline Amphitheatre, pero necesitan solucionar esos errores! 🤓




I/O's hands-on approach with new AI products is awesome! Got to play around with the Gemini models and AI agents at Shoreline Amphitheatre. It's super engaging and you really get a feel for what's coming next. Only wish there was more time to explore everything! 🤓




Os demos práticos no I/O foram incríveis! Consegui experimentar os novos modelos Gemini e agentes de IA, que foram bem legais, mas um pouco cheios de bugs. As melhorias no Android foram um toque agradável, no entanto. No geral, um dia divertido no Shoreline Amphitheatre, mas eles precisam corrigir esses bugs! 🤓




A abordagem prática do I/O com novos produtos de IA é incrível! Pude brincar com os modelos Gemini e agentes de IA no Shoreline Amphitheatre. É super envolvente e você realmente sente o que está por vir. Só queria ter mais tempo para explorar tudo! 😎




I/Oでの新しいAI製品の体験は最高です!ジェミニモデルやAIエージェントをショアライン円形劇場で試せました。とても楽しく、次に何が来るのかを実感できます。もっと時間があれば全部を探検したいですね!😊












