双子座推出增强模型,扩展上下文,AI代理
去年12月,我们推出了首款原生多模态模型Gemini 1.0,提供三种规模:Ultra、Pro和Nano。几个月后,我们引入了1.5 Pro,拥有增强的性能和突破性的100万个令牌长上下文窗口。
开发者和企业客户已经以非常惊艳的方式利用1.5 Pro,欣赏其长上下文窗口、强大的多模态推理能力和整体出色的性能。
用户反馈突显了对更低延迟和成本模型的需求,这激励我们不断突破界限。因此,我们今天兴奋地推出Gemini 1.5 Flash。此模型比1.5 Pro更轻量,设计上注重速度和效率,非常适合扩展应用。
1.5 Pro和1.5 Flash现已进入公开预览,拥有100万个令牌的上下文窗口,可通过Google AI Studio和Vertex AI访问。对于需要更多能力的用户,1.5 Pro现在提供200万个令牌的上下文窗口,开发者可通过API和Google Cloud客户通过等待名单获得。
我们并未止步于此。我们还在整个Gemini家族中推出更新,发布下一代开放模型Gemma 2,并通过Project Astra在AI助手的未来发展中取得进展。
与Gemini 1.5的200万个令牌能力相比的领先基础模型的上下文长度
Gemini模型家族更新
全新1.5 Flash,优化速度与效率
推出1.5 Flash,Gemini家族中最新的最快成员,通过我们的API提供服务。它专为高容量、高频任务量身定制,提供成本效益高的可扩展性,同时保持我们突破性的长上下文窗口。
尽管比1.5 Pro轻量,1.5 Flash表现毫不逊色。它在处理大量数据集的多模态推理方面表现出色,相对于其规模而言,质量令人印象深刻。
全新Gemini 1.5 Flash模型优化了速度和效率,高度擅长多模态推理,并具有突破性的长上下文窗口。
1.5 Flash在摘要、聊天应用以及图像和视频字幕生成等任务中表现出色。它还擅长从长文档和表格中提取数据。这种多功能性源于通过1.5 Pro的“蒸馏”训练,将大型模型的核心知识和技能传递给更高效的小型模型。
有关1.5 Flash的更多详情,请查看我们更新的Gemini 1.5技术报告、Gemini技术页面,并了解其可用性和定价。
显著改进1.5 Pro
在过去几个月中,我们在增强1.5 Pro方面取得了显著进展,它在广泛任务中表现最佳。
我们已将其上下文窗口扩展至200万个令牌,并提升了其在代码生成、逻辑推理、规划、多轮对话以及音频和图像理解方面的能力。这些增强得益于数据和算法的进步,在公开和内部基准测试中均显示出显著改进。
1.5 Pro现在能处理越来越复杂和细致的指令,包括定义产品级行为的指令,如角色、格式和风格。我们优化了对模型响应的控制,适用于特定用例,例如自定义聊天代理角色或通过多函数调用实现工作流自动化。用户现在可以通过系统指令引导模型行为。
我们还在Gemini API和Google AI Studio中新增了音频理解功能,允许1.5 Pro处理上传至Google AI Studio的视频中的图像和音频。我们正将1.5 Pro集成到Google产品中,如Gemini Advanced和Workspace应用。
有关1.5 Pro的更多信息,请深入了解我们更新的Gemini 1.5技术报告和Gemini技术页面。
Gemini Nano支持多模态输入
Gemini Nano正在提升其能力,超越仅文本输入,新增图像支持。从Pixel开始,使用多模态Gemini Nano的应用将能够以更接近人类的方式理解世界,通过文本、视觉、声音和口语。
了解更多关于Android上Gemini 1.0 Nano的信息。
下一代开放模型
今天,我们还更新了Gemma,我们的开放模型家族,基于与Gemini模型相同的研究和技术构建。
我们推出Gemma 2,我们的下一代开放模型,致力于负责任的AI创新。Gemma 2采用全新架构,提供卓越性能和效率,并将推出新型号规模。
Gemma家族正在扩展,新增PaliGemma,这是我们受PaLI-3启发的首个视觉-语言模型。我们还通过LLM Comparator升级了负责任生成AI工具包,以评估模型响应质量。
更多详情,请访问开发者博客。
开发通用AI代理的进展
在Google DeepMind,我们的使命是负责任地构建AI以造福人类。我们一直致力于创建通用的AI代理,协助日常生活。因此,我们分享了在AI助手未来发展上的进展,即Project Astra(高级视觉与语音响应代理)。
要使AI代理真正实用,它需要像人类一样理解和反应世界,接收并记忆所见所闻以掌握语境并采取相应行动。它还应具备主动性、可教性和个性化,支持自然、无延迟的对话。
虽然我们在处理多模态信息方面取得了长足进步,但实现对话响应时间仍是一项艰巨的工程挑战。多年来,我们一直在优化模型的感知、推理和对话方式,以使交互更自然。
基于Gemini,我们开发了原型代理,通过持续编码视频帧、将视频和语音输入合并为事件时间线,并缓存这些数据以便快速调用,从而加快信息处理速度。
通过使用我们顶级的语音模型,我们还改善了这些代理的声音表现,赋予它们更广泛的语调范围。它们能更好地理解所处语境,并在对话中迅速响应。
有了这项技术,不难想象未来每个人身边都有一个专家AI助手,通过手机或眼镜即可访问。其中一些功能将在今年晚些时候融入Google产品,如Gemini应用和网页体验。
持续探索
我们在Gemini模型家族上取得了长足进展,我们致力于进一步突破界限。通过不懈创新,我们在探索新领域的同时,为Gemini解锁激动人心的新用例。
了解更多关于Gemini及其功能的信息,请查看我们的资源。




在您的收件箱中获取更多来自Google的故事。在您的收件箱中获取更多来自Google的故事。
电子邮件地址您的信息将根据Google的隐私政策使用。
订阅完成。只需再一步。
请检查您的收件箱以确认订阅。
您已订阅我们的新闻通讯。
您也可以使用其他电子邮件地址订阅。
相关文章
Salesforce发布Slack AI数字队友对抗Microsoft Copilot
Salesforce推出全新职场AI策略,在Slack对话中引入专业“数字队友”,公司于周一公布。新工具Agentforce in Slack使企业能够创建和部署任务特定AI代理,搜索职场聊天,访问公司数据,并在员工日常使用的消息平台内执行操作。“正如专业员工协作解决问题,我们的客户需要AI代理协同工作,为客户和员工解决问题,”Salesforce Slack首席产品官Rob Seaman在Ven
甲骨文400亿美元英伟达芯片投资助推德克萨斯AI数据中心
据《金融时报》报道,甲骨文计划投资约400亿美元购买英伟达芯片,为OpenAI在德克萨斯州开发的大型新数据中心提供动力。这是迄今为止最大的芯片收购交易之一,凸显了对AI计算资源激增的需求。该设施位于德克萨斯州阿比林,是美国首个“星门”数据中心。由OpenAI和软银支持,这是构建大规模AI基础设施的更广泛计划的一部分。该德克萨斯中心计划于明年完工,将提供1.2吉瓦的计算能力,使其跻身全球最大数据中心
Meta AI应用将引入高级订阅和广告
Meta的AI应用可能很快推出付费订阅服务,效仿OpenAI、Google和Microsoft等竞争对手的做法。在2025年第一季度财报电话会议上,Meta首席执行官马克·扎克伯格概述了高级服务的计划,使用户能够访问增强的计算能力或Meta AI的额外功能。为了与ChatGPT竞争,Meta本周推出了一款独立AI应用,允许用户直接与聊天机器人互动并进行图像生成。该聊天机器人目前拥有近10亿用户,此
评论 (25)
0/200
LucasWalker
2025-04-19 05:37:58
ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀
0
FrankSmith
2025-04-16 08:37:56
젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓
0
JamesMiller
2025-04-16 01:53:33
O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓
0
MarkRoberts
2025-04-15 09:25:31
El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.
0
BillyGarcia
2025-04-15 03:20:08
O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀
0
RogerRoberts
2025-04-15 01:06:25
¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓
0
去年12月,我们推出了首款原生多模态模型Gemini 1.0,提供三种规模:Ultra、Pro和Nano。几个月后,我们引入了1.5 Pro,拥有增强的性能和突破性的100万个令牌长上下文窗口。
开发者和企业客户已经以非常惊艳的方式利用1.5 Pro,欣赏其长上下文窗口、强大的多模态推理能力和整体出色的性能。
用户反馈突显了对更低延迟和成本模型的需求,这激励我们不断突破界限。因此,我们今天兴奋地推出Gemini 1.5 Flash。此模型比1.5 Pro更轻量,设计上注重速度和效率,非常适合扩展应用。
1.5 Pro和1.5 Flash现已进入公开预览,拥有100万个令牌的上下文窗口,可通过Google AI Studio和Vertex AI访问。对于需要更多能力的用户,1.5 Pro现在提供200万个令牌的上下文窗口,开发者可通过API和Google Cloud客户通过等待名单获得。
我们并未止步于此。我们还在整个Gemini家族中推出更新,发布下一代开放模型Gemma 2,并通过Project Astra在AI助手的未来发展中取得进展。
Gemini模型家族更新
全新1.5 Flash,优化速度与效率
推出1.5 Flash,Gemini家族中最新的最快成员,通过我们的API提供服务。它专为高容量、高频任务量身定制,提供成本效益高的可扩展性,同时保持我们突破性的长上下文窗口。
尽管比1.5 Pro轻量,1.5 Flash表现毫不逊色。它在处理大量数据集的多模态推理方面表现出色,相对于其规模而言,质量令人印象深刻。
1.5 Flash在摘要、聊天应用以及图像和视频字幕生成等任务中表现出色。它还擅长从长文档和表格中提取数据。这种多功能性源于通过1.5 Pro的“蒸馏”训练,将大型模型的核心知识和技能传递给更高效的小型模型。
有关1.5 Flash的更多详情,请查看我们更新的Gemini 1.5技术报告、Gemini技术页面,并了解其可用性和定价。
显著改进1.5 Pro
在过去几个月中,我们在增强1.5 Pro方面取得了显著进展,它在广泛任务中表现最佳。
我们已将其上下文窗口扩展至200万个令牌,并提升了其在代码生成、逻辑推理、规划、多轮对话以及音频和图像理解方面的能力。这些增强得益于数据和算法的进步,在公开和内部基准测试中均显示出显著改进。
1.5 Pro现在能处理越来越复杂和细致的指令,包括定义产品级行为的指令,如角色、格式和风格。我们优化了对模型响应的控制,适用于特定用例,例如自定义聊天代理角色或通过多函数调用实现工作流自动化。用户现在可以通过系统指令引导模型行为。
我们还在Gemini API和Google AI Studio中新增了音频理解功能,允许1.5 Pro处理上传至Google AI Studio的视频中的图像和音频。我们正将1.5 Pro集成到Google产品中,如Gemini Advanced和Workspace应用。
有关1.5 Pro的更多信息,请深入了解我们更新的Gemini 1.5技术报告和Gemini技术页面。
Gemini Nano支持多模态输入
Gemini Nano正在提升其能力,超越仅文本输入,新增图像支持。从Pixel开始,使用多模态Gemini Nano的应用将能够以更接近人类的方式理解世界,通过文本、视觉、声音和口语。
了解更多关于Android上Gemini 1.0 Nano的信息。
下一代开放模型
今天,我们还更新了Gemma,我们的开放模型家族,基于与Gemini模型相同的研究和技术构建。
我们推出Gemma 2,我们的下一代开放模型,致力于负责任的AI创新。Gemma 2采用全新架构,提供卓越性能和效率,并将推出新型号规模。
Gemma家族正在扩展,新增PaliGemma,这是我们受PaLI-3启发的首个视觉-语言模型。我们还通过LLM Comparator升级了负责任生成AI工具包,以评估模型响应质量。
更多详情,请访问开发者博客。
开发通用AI代理的进展
在Google DeepMind,我们的使命是负责任地构建AI以造福人类。我们一直致力于创建通用的AI代理,协助日常生活。因此,我们分享了在AI助手未来发展上的进展,即Project Astra(高级视觉与语音响应代理)。
要使AI代理真正实用,它需要像人类一样理解和反应世界,接收并记忆所见所闻以掌握语境并采取相应行动。它还应具备主动性、可教性和个性化,支持自然、无延迟的对话。
虽然我们在处理多模态信息方面取得了长足进步,但实现对话响应时间仍是一项艰巨的工程挑战。多年来,我们一直在优化模型的感知、推理和对话方式,以使交互更自然。
基于Gemini,我们开发了原型代理,通过持续编码视频帧、将视频和语音输入合并为事件时间线,并缓存这些数据以便快速调用,从而加快信息处理速度。
通过使用我们顶级的语音模型,我们还改善了这些代理的声音表现,赋予它们更广泛的语调范围。它们能更好地理解所处语境,并在对话中迅速响应。
有了这项技术,不难想象未来每个人身边都有一个专家AI助手,通过手机或眼镜即可访问。其中一些功能将在今年晚些时候融入Google产品,如Gemini应用和网页体验。
持续探索
我们在Gemini模型家族上取得了长足进展,我们致力于进一步突破界限。通过不懈创新,我们在探索新领域的同时,为Gemini解锁激动人心的新用例。
了解更多关于Gemini及其功能的信息,请查看我们的资源。




在您的收件箱中获取更多来自Google的故事。在您的收件箱中获取更多来自Google的故事。
订阅完成。只需再一步。
请检查您的收件箱以确认订阅。
您已订阅我们的新闻通讯。
您也可以使用其他电子邮件地址订阅。



ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀




젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓




O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓




El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.




O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀




¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓












