双子座推出增强模型,扩展上下文,AI代理
去年12月,我们推出了首款原生多模态模型Gemini 1.0,提供三种规模:Ultra、Pro和Nano。几个月后,我们引入了1.5 Pro,拥有增强的性能和突破性的100万个令牌长上下文窗口。
开发者和企业客户已经以非常惊艳的方式利用1.5 Pro,欣赏其长上下文窗口、强大的多模态推理能力和整体出色的性能。
用户反馈突显了对更低延迟和成本模型的需求,这激励我们不断突破界限。因此,我们今天兴奋地推出Gemini 1.5 Flash。此模型比1.5 Pro更轻量,设计上注重速度和效率,非常适合扩展应用。
1.5 Pro和1.5 Flash现已进入公开预览,拥有100万个令牌的上下文窗口,可通过Google AI Studio和Vertex AI访问。对于需要更多能力的用户,1.5 Pro现在提供200万个令牌的上下文窗口,开发者可通过API和Google Cloud客户通过等待名单获得。
我们并未止步于此。我们还在整个Gemini家族中推出更新,发布下一代开放模型Gemma 2,并通过Project Astra在AI助手的未来发展中取得进展。
与Gemini 1.5的200万个令牌能力相比的领先基础模型的上下文长度
Gemini模型家族更新
全新1.5 Flash,优化速度与效率
推出1.5 Flash,Gemini家族中最新的最快成员,通过我们的API提供服务。它专为高容量、高频任务量身定制,提供成本效益高的可扩展性,同时保持我们突破性的长上下文窗口。
尽管比1.5 Pro轻量,1.5 Flash表现毫不逊色。它在处理大量数据集的多模态推理方面表现出色,相对于其规模而言,质量令人印象深刻。
全新Gemini 1.5 Flash模型优化了速度和效率,高度擅长多模态推理,并具有突破性的长上下文窗口。
1.5 Flash在摘要、聊天应用以及图像和视频字幕生成等任务中表现出色。它还擅长从长文档和表格中提取数据。这种多功能性源于通过1.5 Pro的“蒸馏”训练,将大型模型的核心知识和技能传递给更高效的小型模型。
有关1.5 Flash的更多详情,请查看我们更新的Gemini 1.5技术报告、Gemini技术页面,并了解其可用性和定价。
显著改进1.5 Pro
在过去几个月中,我们在增强1.5 Pro方面取得了显著进展,它在广泛任务中表现最佳。
我们已将其上下文窗口扩展至200万个令牌,并提升了其在代码生成、逻辑推理、规划、多轮对话以及音频和图像理解方面的能力。这些增强得益于数据和算法的进步,在公开和内部基准测试中均显示出显著改进。
1.5 Pro现在能处理越来越复杂和细致的指令,包括定义产品级行为的指令,如角色、格式和风格。我们优化了对模型响应的控制,适用于特定用例,例如自定义聊天代理角色或通过多函数调用实现工作流自动化。用户现在可以通过系统指令引导模型行为。
我们还在Gemini API和Google AI Studio中新增了音频理解功能,允许1.5 Pro处理上传至Google AI Studio的视频中的图像和音频。我们正将1.5 Pro集成到Google产品中,如Gemini Advanced和Workspace应用。
有关1.5 Pro的更多信息,请深入了解我们更新的Gemini 1.5技术报告和Gemini技术页面。
Gemini Nano支持多模态输入
Gemini Nano正在提升其能力,超越仅文本输入,新增图像支持。从Pixel开始,使用多模态Gemini Nano的应用将能够以更接近人类的方式理解世界,通过文本、视觉、声音和口语。
了解更多关于Android上Gemini 1.0 Nano的信息。
下一代开放模型
今天,我们还更新了Gemma,我们的开放模型家族,基于与Gemini模型相同的研究和技术构建。
我们推出Gemma 2,我们的下一代开放模型,致力于负责任的AI创新。Gemma 2采用全新架构,提供卓越性能和效率,并将推出新型号规模。
Gemma家族正在扩展,新增PaliGemma,这是我们受PaLI-3启发的首个视觉-语言模型。我们还通过LLM Comparator升级了负责任生成AI工具包,以评估模型响应质量。
更多详情,请访问开发者博客。
开发通用AI代理的进展
在Google DeepMind,我们的使命是负责任地构建AI以造福人类。我们一直致力于创建通用的AI代理,协助日常生活。因此,我们分享了在AI助手未来发展上的进展,即Project Astra(高级视觉与语音响应代理)。
要使AI代理真正实用,它需要像人类一样理解和反应世界,接收并记忆所见所闻以掌握语境并采取相应行动。它还应具备主动性、可教性和个性化,支持自然、无延迟的对话。
虽然我们在处理多模态信息方面取得了长足进步,但实现对话响应时间仍是一项艰巨的工程挑战。多年来,我们一直在优化模型的感知、推理和对话方式,以使交互更自然。
基于Gemini,我们开发了原型代理,通过持续编码视频帧、将视频和语音输入合并为事件时间线,并缓存这些数据以便快速调用,从而加快信息处理速度。
通过使用我们顶级的语音模型,我们还改善了这些代理的声音表现,赋予它们更广泛的语调范围。它们能更好地理解所处语境,并在对话中迅速响应。
有了这项技术,不难想象未来每个人身边都有一个专家AI助手,通过手机或眼镜即可访问。其中一些功能将在今年晚些时候融入Google产品,如Gemini应用和网页体验。
持续探索
我们在Gemini模型家族上取得了长足进展,我们致力于进一步突破界限。通过不懈创新,我们在探索新领域的同时,为Gemini解锁激动人心的新用例。
了解更多关于Gemini及其功能的信息,请查看我们的资源。




在您的收件箱中获取更多来自Google的故事。在您的收件箱中获取更多来自Google的故事。
电子邮件地址您的信息将根据Google的隐私政策使用。
订阅完成。只需再一步。
请检查您的收件箱以确认订阅。
您已订阅我们的新闻通讯。
您也可以使用其他电子邮件地址订阅。
相关文章
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图
Kakao Mobility 计划内部自主研发 L4 级自动驾驶技术,作为其物理人工智能战略的一部分。在首尔COEX举行的2026世界IT展上,Kakao Mobility副总裁兼物理AI部门负责人金镇奎(Kim Jin-kyu)介绍了该路线图。他的演讲聚焦于物理AI时代基于出行平台构建的自动驾驶服务。据韩联社报道,这场题为“超越构想,付诸行动:AI驱动现实”的活动汇聚了来自17个国家的460
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要
尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
相关专题推荐
评论 (26)
0/500
Geminiの進化がすごいですね!長いコンテキストウィンドウは実用的なAIエージェント開発に革命をもたらしそう。でも、競争激化で倫理的なガイドラインが追いついてるか少し心配。🤔 個人的には、もっと小さなプロジェクトでも使える軽量版が早く出てくると嬉しいな。
ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀
젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓
O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓
El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.
去年12月,我们推出了首款原生多模态模型Gemini 1.0,提供三种规模:Ultra、Pro和Nano。几个月后,我们引入了1.5 Pro,拥有增强的性能和突破性的100万个令牌长上下文窗口。
开发者和企业客户已经以非常惊艳的方式利用1.5 Pro,欣赏其长上下文窗口、强大的多模态推理能力和整体出色的性能。
用户反馈突显了对更低延迟和成本模型的需求,这激励我们不断突破界限。因此,我们今天兴奋地推出Gemini 1.5 Flash。此模型比1.5 Pro更轻量,设计上注重速度和效率,非常适合扩展应用。
1.5 Pro和1.5 Flash现已进入公开预览,拥有100万个令牌的上下文窗口,可通过Google AI Studio和Vertex AI访问。对于需要更多能力的用户,1.5 Pro现在提供200万个令牌的上下文窗口,开发者可通过API和Google Cloud客户通过等待名单获得。
我们并未止步于此。我们还在整个Gemini家族中推出更新,发布下一代开放模型Gemma 2,并通过Project Astra在AI助手的未来发展中取得进展。
Gemini模型家族更新
全新1.5 Flash,优化速度与效率
推出1.5 Flash,Gemini家族中最新的最快成员,通过我们的API提供服务。它专为高容量、高频任务量身定制,提供成本效益高的可扩展性,同时保持我们突破性的长上下文窗口。
尽管比1.5 Pro轻量,1.5 Flash表现毫不逊色。它在处理大量数据集的多模态推理方面表现出色,相对于其规模而言,质量令人印象深刻。
1.5 Flash在摘要、聊天应用以及图像和视频字幕生成等任务中表现出色。它还擅长从长文档和表格中提取数据。这种多功能性源于通过1.5 Pro的“蒸馏”训练,将大型模型的核心知识和技能传递给更高效的小型模型。
有关1.5 Flash的更多详情,请查看我们更新的Gemini 1.5技术报告、Gemini技术页面,并了解其可用性和定价。
显著改进1.5 Pro
在过去几个月中,我们在增强1.5 Pro方面取得了显著进展,它在广泛任务中表现最佳。
我们已将其上下文窗口扩展至200万个令牌,并提升了其在代码生成、逻辑推理、规划、多轮对话以及音频和图像理解方面的能力。这些增强得益于数据和算法的进步,在公开和内部基准测试中均显示出显著改进。
1.5 Pro现在能处理越来越复杂和细致的指令,包括定义产品级行为的指令,如角色、格式和风格。我们优化了对模型响应的控制,适用于特定用例,例如自定义聊天代理角色或通过多函数调用实现工作流自动化。用户现在可以通过系统指令引导模型行为。
我们还在Gemini API和Google AI Studio中新增了音频理解功能,允许1.5 Pro处理上传至Google AI Studio的视频中的图像和音频。我们正将1.5 Pro集成到Google产品中,如Gemini Advanced和Workspace应用。
有关1.5 Pro的更多信息,请深入了解我们更新的Gemini 1.5技术报告和Gemini技术页面。
Gemini Nano支持多模态输入
Gemini Nano正在提升其能力,超越仅文本输入,新增图像支持。从Pixel开始,使用多模态Gemini Nano的应用将能够以更接近人类的方式理解世界,通过文本、视觉、声音和口语。
了解更多关于Android上Gemini 1.0 Nano的信息。
下一代开放模型
今天,我们还更新了Gemma,我们的开放模型家族,基于与Gemini模型相同的研究和技术构建。
我们推出Gemma 2,我们的下一代开放模型,致力于负责任的AI创新。Gemma 2采用全新架构,提供卓越性能和效率,并将推出新型号规模。
Gemma家族正在扩展,新增PaliGemma,这是我们受PaLI-3启发的首个视觉-语言模型。我们还通过LLM Comparator升级了负责任生成AI工具包,以评估模型响应质量。
更多详情,请访问开发者博客。
开发通用AI代理的进展
在Google DeepMind,我们的使命是负责任地构建AI以造福人类。我们一直致力于创建通用的AI代理,协助日常生活。因此,我们分享了在AI助手未来发展上的进展,即Project Astra(高级视觉与语音响应代理)。
要使AI代理真正实用,它需要像人类一样理解和反应世界,接收并记忆所见所闻以掌握语境并采取相应行动。它还应具备主动性、可教性和个性化,支持自然、无延迟的对话。
虽然我们在处理多模态信息方面取得了长足进步,但实现对话响应时间仍是一项艰巨的工程挑战。多年来,我们一直在优化模型的感知、推理和对话方式,以使交互更自然。
基于Gemini,我们开发了原型代理,通过持续编码视频帧、将视频和语音输入合并为事件时间线,并缓存这些数据以便快速调用,从而加快信息处理速度。
通过使用我们顶级的语音模型,我们还改善了这些代理的声音表现,赋予它们更广泛的语调范围。它们能更好地理解所处语境,并在对话中迅速响应。
有了这项技术,不难想象未来每个人身边都有一个专家AI助手,通过手机或眼镜即可访问。其中一些功能将在今年晚些时候融入Google产品,如Gemini应用和网页体验。
持续探索
我们在Gemini模型家族上取得了长足进展,我们致力于进一步突破界限。通过不懈创新,我们在探索新领域的同时,为Gemini解锁激动人心的新用例。
了解更多关于Gemini及其功能的信息,请查看我们的资源。




在您的收件箱中获取更多来自Google的故事。在您的收件箱中获取更多来自Google的故事。
订阅完成。只需再一步。
请检查您的收件箱以确认订阅。
您已订阅我们的新闻通讯。
您也可以使用其他电子邮件地址订阅。
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要
尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
Geminiの進化がすごいですね!長いコンテキストウィンドウは実用的なAIエージェント開発に革命をもたらしそう。でも、競争激化で倫理的なガイドラインが追いついてるか少し心配。🤔 個人的には、もっと小さなプロジェクトでも使える軽量版が早く出てくると嬉しいな。
ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀
젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓
O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓
El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.





首页






