双子座推出增强模型,扩展上下文,AI代理
去年12月,我们推出了首款原生多模态模型Gemini 1.0,提供三种规模:Ultra、Pro和Nano。几个月后,我们引入了1.5 Pro,拥有增强的性能和突破性的100万个令牌长上下文窗口。
开发者和企业客户已经以非常惊艳的方式利用1.5 Pro,欣赏其长上下文窗口、强大的多模态推理能力和整体出色的性能。
用户反馈突显了对更低延迟和成本模型的需求,这激励我们不断突破界限。因此,我们今天兴奋地推出Gemini 1.5 Flash。此模型比1.5 Pro更轻量,设计上注重速度和效率,非常适合扩展应用。
1.5 Pro和1.5 Flash现已进入公开预览,拥有100万个令牌的上下文窗口,可通过Google AI Studio和Vertex AI访问。对于需要更多能力的用户,1.5 Pro现在提供200万个令牌的上下文窗口,开发者可通过API和Google Cloud客户通过等待名单获得。
我们并未止步于此。我们还在整个Gemini家族中推出更新,发布下一代开放模型Gemma 2,并通过Project Astra在AI助手的未来发展中取得进展。
与Gemini 1.5的200万个令牌能力相比的领先基础模型的上下文长度
Gemini模型家族更新
全新1.5 Flash,优化速度与效率
推出1.5 Flash,Gemini家族中最新的最快成员,通过我们的API提供服务。它专为高容量、高频任务量身定制,提供成本效益高的可扩展性,同时保持我们突破性的长上下文窗口。
尽管比1.5 Pro轻量,1.5 Flash表现毫不逊色。它在处理大量数据集的多模态推理方面表现出色,相对于其规模而言,质量令人印象深刻。
全新Gemini 1.5 Flash模型优化了速度和效率,高度擅长多模态推理,并具有突破性的长上下文窗口。
1.5 Flash在摘要、聊天应用以及图像和视频字幕生成等任务中表现出色。它还擅长从长文档和表格中提取数据。这种多功能性源于通过1.5 Pro的“蒸馏”训练,将大型模型的核心知识和技能传递给更高效的小型模型。
有关1.5 Flash的更多详情,请查看我们更新的Gemini 1.5技术报告、Gemini技术页面,并了解其可用性和定价。
显著改进1.5 Pro
在过去几个月中,我们在增强1.5 Pro方面取得了显著进展,它在广泛任务中表现最佳。
我们已将其上下文窗口扩展至200万个令牌,并提升了其在代码生成、逻辑推理、规划、多轮对话以及音频和图像理解方面的能力。这些增强得益于数据和算法的进步,在公开和内部基准测试中均显示出显著改进。
1.5 Pro现在能处理越来越复杂和细致的指令,包括定义产品级行为的指令,如角色、格式和风格。我们优化了对模型响应的控制,适用于特定用例,例如自定义聊天代理角色或通过多函数调用实现工作流自动化。用户现在可以通过系统指令引导模型行为。
我们还在Gemini API和Google AI Studio中新增了音频理解功能,允许1.5 Pro处理上传至Google AI Studio的视频中的图像和音频。我们正将1.5 Pro集成到Google产品中,如Gemini Advanced和Workspace应用。
有关1.5 Pro的更多信息,请深入了解我们更新的Gemini 1.5技术报告和Gemini技术页面。
Gemini Nano支持多模态输入
Gemini Nano正在提升其能力,超越仅文本输入,新增图像支持。从Pixel开始,使用多模态Gemini Nano的应用将能够以更接近人类的方式理解世界,通过文本、视觉、声音和口语。
了解更多关于Android上Gemini 1.0 Nano的信息。
下一代开放模型
今天,我们还更新了Gemma,我们的开放模型家族,基于与Gemini模型相同的研究和技术构建。
我们推出Gemma 2,我们的下一代开放模型,致力于负责任的AI创新。Gemma 2采用全新架构,提供卓越性能和效率,并将推出新型号规模。
Gemma家族正在扩展,新增PaliGemma,这是我们受PaLI-3启发的首个视觉-语言模型。我们还通过LLM Comparator升级了负责任生成AI工具包,以评估模型响应质量。
更多详情,请访问开发者博客。
开发通用AI代理的进展
在Google DeepMind,我们的使命是负责任地构建AI以造福人类。我们一直致力于创建通用的AI代理,协助日常生活。因此,我们分享了在AI助手未来发展上的进展,即Project Astra(高级视觉与语音响应代理)。
要使AI代理真正实用,它需要像人类一样理解和反应世界,接收并记忆所见所闻以掌握语境并采取相应行动。它还应具备主动性、可教性和个性化,支持自然、无延迟的对话。
虽然我们在处理多模态信息方面取得了长足进步,但实现对话响应时间仍是一项艰巨的工程挑战。多年来,我们一直在优化模型的感知、推理和对话方式,以使交互更自然。
基于Gemini,我们开发了原型代理,通过持续编码视频帧、将视频和语音输入合并为事件时间线,并缓存这些数据以便快速调用,从而加快信息处理速度。
通过使用我们顶级的语音模型,我们还改善了这些代理的声音表现,赋予它们更广泛的语调范围。它们能更好地理解所处语境,并在对话中迅速响应。
有了这项技术,不难想象未来每个人身边都有一个专家AI助手,通过手机或眼镜即可访问。其中一些功能将在今年晚些时候融入Google产品,如Gemini应用和网页体验。
持续探索
我们在Gemini模型家族上取得了长足进展,我们致力于进一步突破界限。通过不懈创新,我们在探索新领域的同时,为Gemini解锁激动人心的新用例。
了解更多关于Gemini及其功能的信息,请查看我们的资源。




在您的收件箱中获取更多来自Google的故事。在您的收件箱中获取更多来自Google的故事。
电子邮件地址您的信息将根据Google的隐私政策使用。
订阅完成。只需再一步。
请检查您的收件箱以确认订阅。
您已订阅我们的新闻通讯。
您也可以使用其他电子邮件地址订阅。
相关文章
Anthropic 解决了人工智能生成盗版图书的法律案件
Anthropic公司与美国作家达成了一项重要的版权纠纷解决方案,同意拟议的集体诉讼和解,避免了可能代价高昂的审判。本周二在法庭文件中提交的这份协议源于对这家人工智能公司使用盗版文学作品训练克劳德模型的指控。尽管此案源于作家安德烈娅-巴茨(Andrea Bartz)、查尔斯-格雷伯(Charles Graeber)和柯克-华莱士-约翰逊(Kirk Wallace Johnson)的指控,但和解细节
Figma 向所有用户发布人工智能驱动的应用程序生成工具
Figma Make 是今年早些时候推出的创新型提示到应用开发平台,现已正式退出测试版,并向所有用户推出。这一开创性的工具加入了人工智能编码助手的行列,如谷歌的 Gemini Code Assist 和微软的 GitHub Copilot,使创作者能够将自然语言描述转化为功能原型和应用程序,而无需传统的编程专业知识。Figma Make 最初在测试阶段只对高级 "全席 "用户开放,现在对所有账户类
R1:中国科技巨头推出媲美擎天柱的仿人机器人
蚂蚁金服集团推出首款仿人机器人原型支付巨头蚂蚁金服的机器人部门在大型科技活动中首次展示了其 R1 人形机器人,并进行了自动烹饪演示,这标志着蚂蚁金服的雄心已超越了简单的制造应用。公开演示在欧洲最重要的 IFA 电子展上,科技爱好者目睹了 Robbyant 的机械化厨师烹制海鲜菜肴的过程。原型机展示了基本的移动性和物体操作能力,不过与人类同类产品相比,其操作速度仍然不高。潜在应用开发人
评论 (25)
0/200
LucasWalker
2025-04-19 05:37:58
ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀
0
FrankSmith
2025-04-16 08:37:56
젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓
0
JamesMiller
2025-04-16 01:53:33
O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓
0
MarkRoberts
2025-04-15 09:25:31
El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.
0
BillyGarcia
2025-04-15 03:20:08
O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀
0
RogerRoberts
2025-04-15 01:06:25
¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓
0
去年12月,我们推出了首款原生多模态模型Gemini 1.0,提供三种规模:Ultra、Pro和Nano。几个月后,我们引入了1.5 Pro,拥有增强的性能和突破性的100万个令牌长上下文窗口。
开发者和企业客户已经以非常惊艳的方式利用1.5 Pro,欣赏其长上下文窗口、强大的多模态推理能力和整体出色的性能。
用户反馈突显了对更低延迟和成本模型的需求,这激励我们不断突破界限。因此,我们今天兴奋地推出Gemini 1.5 Flash。此模型比1.5 Pro更轻量,设计上注重速度和效率,非常适合扩展应用。
1.5 Pro和1.5 Flash现已进入公开预览,拥有100万个令牌的上下文窗口,可通过Google AI Studio和Vertex AI访问。对于需要更多能力的用户,1.5 Pro现在提供200万个令牌的上下文窗口,开发者可通过API和Google Cloud客户通过等待名单获得。
我们并未止步于此。我们还在整个Gemini家族中推出更新,发布下一代开放模型Gemma 2,并通过Project Astra在AI助手的未来发展中取得进展。
Gemini模型家族更新
全新1.5 Flash,优化速度与效率
推出1.5 Flash,Gemini家族中最新的最快成员,通过我们的API提供服务。它专为高容量、高频任务量身定制,提供成本效益高的可扩展性,同时保持我们突破性的长上下文窗口。
尽管比1.5 Pro轻量,1.5 Flash表现毫不逊色。它在处理大量数据集的多模态推理方面表现出色,相对于其规模而言,质量令人印象深刻。
1.5 Flash在摘要、聊天应用以及图像和视频字幕生成等任务中表现出色。它还擅长从长文档和表格中提取数据。这种多功能性源于通过1.5 Pro的“蒸馏”训练,将大型模型的核心知识和技能传递给更高效的小型模型。
有关1.5 Flash的更多详情,请查看我们更新的Gemini 1.5技术报告、Gemini技术页面,并了解其可用性和定价。
显著改进1.5 Pro
在过去几个月中,我们在增强1.5 Pro方面取得了显著进展,它在广泛任务中表现最佳。
我们已将其上下文窗口扩展至200万个令牌,并提升了其在代码生成、逻辑推理、规划、多轮对话以及音频和图像理解方面的能力。这些增强得益于数据和算法的进步,在公开和内部基准测试中均显示出显著改进。
1.5 Pro现在能处理越来越复杂和细致的指令,包括定义产品级行为的指令,如角色、格式和风格。我们优化了对模型响应的控制,适用于特定用例,例如自定义聊天代理角色或通过多函数调用实现工作流自动化。用户现在可以通过系统指令引导模型行为。
我们还在Gemini API和Google AI Studio中新增了音频理解功能,允许1.5 Pro处理上传至Google AI Studio的视频中的图像和音频。我们正将1.5 Pro集成到Google产品中,如Gemini Advanced和Workspace应用。
有关1.5 Pro的更多信息,请深入了解我们更新的Gemini 1.5技术报告和Gemini技术页面。
Gemini Nano支持多模态输入
Gemini Nano正在提升其能力,超越仅文本输入,新增图像支持。从Pixel开始,使用多模态Gemini Nano的应用将能够以更接近人类的方式理解世界,通过文本、视觉、声音和口语。
了解更多关于Android上Gemini 1.0 Nano的信息。
下一代开放模型
今天,我们还更新了Gemma,我们的开放模型家族,基于与Gemini模型相同的研究和技术构建。
我们推出Gemma 2,我们的下一代开放模型,致力于负责任的AI创新。Gemma 2采用全新架构,提供卓越性能和效率,并将推出新型号规模。
Gemma家族正在扩展,新增PaliGemma,这是我们受PaLI-3启发的首个视觉-语言模型。我们还通过LLM Comparator升级了负责任生成AI工具包,以评估模型响应质量。
更多详情,请访问开发者博客。
开发通用AI代理的进展
在Google DeepMind,我们的使命是负责任地构建AI以造福人类。我们一直致力于创建通用的AI代理,协助日常生活。因此,我们分享了在AI助手未来发展上的进展,即Project Astra(高级视觉与语音响应代理)。
要使AI代理真正实用,它需要像人类一样理解和反应世界,接收并记忆所见所闻以掌握语境并采取相应行动。它还应具备主动性、可教性和个性化,支持自然、无延迟的对话。
虽然我们在处理多模态信息方面取得了长足进步,但实现对话响应时间仍是一项艰巨的工程挑战。多年来,我们一直在优化模型的感知、推理和对话方式,以使交互更自然。
基于Gemini,我们开发了原型代理,通过持续编码视频帧、将视频和语音输入合并为事件时间线,并缓存这些数据以便快速调用,从而加快信息处理速度。
通过使用我们顶级的语音模型,我们还改善了这些代理的声音表现,赋予它们更广泛的语调范围。它们能更好地理解所处语境,并在对话中迅速响应。
有了这项技术,不难想象未来每个人身边都有一个专家AI助手,通过手机或眼镜即可访问。其中一些功能将在今年晚些时候融入Google产品,如Gemini应用和网页体验。
持续探索
我们在Gemini模型家族上取得了长足进展,我们致力于进一步突破界限。通过不懈创新,我们在探索新领域的同时,为Gemini解锁激动人心的新用例。
了解更多关于Gemini及其功能的信息,请查看我们的资源。




在您的收件箱中获取更多来自Google的故事。在您的收件箱中获取更多来自Google的故事。
订阅完成。只需再一步。
请检查您的收件箱以确认订阅。
您已订阅我们的新闻通讯。
您也可以使用其他电子邮件地址订阅。




ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀




젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓




O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓




El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.




O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀




¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓












