了解长上下文窗口:关键见解
昨日,我们发布了AI技术领域的最新突破——Gemini 1.5模型。这一新版本在速度和效率方面带来显著提升,但真正的变革在于其创新的长上下文窗口功能。这一功能使模型能够一次性处理前所未有的令牌数量——构成文字、图像或视频的基本单位。为了阐明这一进步,我们咨询了Google DeepMind项目团队,了解长上下文窗口的本质及其如何革新开发者工作方式。
理解长上下文窗口至关重要,因为它们使AI模型能够在整个会话中保持和回忆信息。想象一下,在对话中刚提到一个名字几分钟后就试图回忆,或者急于在忘记之前写下电话号码。AI模型面临类似挑战,通常在几次交互后“忘记”细节。长上下文窗口通过让模型在其“记忆”中保留更多信息来解决这一问题。
此前,Gemini模型可同时处理高达32,000个令牌。然而,随着1.5 Pro版本的早期测试发布,我们将界限推至惊人的100万个令牌——迄今为止任何大规模基础模型中最大的上下文窗口。我们的研究甚至超越了这一数字,成功测试了高达1000万个令牌。上下文窗口越大,模型能处理的数据——文本、图像、音频、代码或视频——就越多样和广泛。
Google DeepMind研究科学家、长上下文项目负责人之一Nikolay Savinov分享道:“我们的初步目标是达到128,000个令牌,但我认为目标更高会更有益,于是我提出了100万个令牌。现在,我们的研究成果已超出这一目标10倍。”
实现这一飞跃需要一系列深度学习创新。Pranav Shyam的早期探索提供了关键见解,指导了我们的研究。Google DeepMind工程师Denis Teplyashin解释说:“每项突破都引领了另一项突破,开辟了新的可能性。当这些创新结合时,我们对结果感到震惊,从128,000个令牌扩展到512,000个,然后是100万个,最近在内部研究中达到了1000万个令牌。”
1.5 Pro的扩展能力开启了令人兴奋的新应用。例如,以前模型只能总结几十页的文档,现在它可以处理数千页的文档。之前的模型能分析数千行代码,而1.5 Pro现在可以一次性处理数万行代码。
另一位Google DeepMind研究科学家Machel Reid分享了一些引人注目的测试结果:“在一次测试中,我们将整个代码库输入模型,它生成了全面的文档,真是不可思议。在另一次测试中,它在‘观看’完整的45分钟1924年电影《Sherlock Jr.》后,准确回答了相关问题。”
1.5 Pro还在提示中的数据推理方面表现出色。Machel举了一个涉及稀有语言Kalamang的例子,这种语言全球仅有不到200人使用。“模型本身无法翻译成Kalamang,但通过长上下文窗口,我们可以包含整个语法手册和示例句子。模型随后学会了从英语翻译到Kalamang,水平堪比从相同材料学习的人。”
Gemini 1.5 Pro标配128K令牌的上下文窗口,但部分开发者和企业客户可以通过AI Studio和Vertex AI在私人预览中访问100万个令牌的上下文窗口。管理如此大的上下文窗口在计算上非常密集,我们正在积极优化以减少延迟,同时扩大规模。
展望未来,团队专注于使模型更快、更高效,同时以安全性为优先。他们还在探索进一步扩展长上下文窗口、增强底层架构以及利用新硬件改进的方法。Nikolay指出:“一次性处理1000万个令牌已接近我们Tensor Processing Units的热极限。我们还不确定极限在哪里,随着硬件的持续发展,模型可能具备更多能力。”
团队期待看到开发者和更广泛社区利用这些新功能创造的创新应用。Machel反思道:“当我第一次看到我们有100万个令牌的上下文时,我想,‘这能用来做什么?’但现在,我相信人们的想象力会扩展,带来更多创造性的新功能应用。”
[ttpp][yyxx]

相关文章
Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图
Kakao Mobility 计划内部自主研发 L4 级自动驾驶技术,作为其物理人工智能战略的一部分。在首尔COEX举行的2026世界IT展上,Kakao Mobility副总裁兼物理AI部门负责人金镇奎(Kim Jin-kyu)介绍了该路线图。他的演讲聚焦于物理AI时代基于出行平台构建的自动驾驶服务。据韩联社报道,这场题为“超越构想,付诸行动:AI驱动现实”的活动汇聚了来自17个国家的460
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要
尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
YouTube将AI深度伪造检测功能扩展至政界人士、政府官员和记者
周二,YouTube宣布将把其深度伪造(deepfake)检测技术推广至部分政府官员、政治候选人和记者。该工具可识别由人工智能生成的肖像,并允许试点参与者申请删除其认为违反YouTube政策的未经授权内容。该检测系统在经过前期测试阶段后,于去年首次向约400万名YouTube合作伙伴计划的创作者推出。与YouTube现有的用于保护版权内容的Content ID系统类似,该肖像检测功能可识别AI模拟
相关专题推荐
评论 (30)
0/500
すごい!長文コンテキストの機能が実用化されたら、研究やビジネス文書の分析が一気に楽になりそう🤩。でもこれ、倫理面でどうなんだろう?膨大なデータを読み込むということは、プライバシー問題も発生しそうで少し不安…。他社は今後どう追従するのか気になるなぁ。開発スピード速すぎて置いていかれそう!
Super cool to see Gemini 1.5's long context window in action! 😎 Makes me wonder how it'll handle massive datasets compared to older models.
Wow, the long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Excited to see where this takes AI! 🚀
The long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Any cool examples out there yet? 🤔
昨日,我们发布了AI技术领域的最新突破——Gemini 1.5模型。这一新版本在速度和效率方面带来显著提升,但真正的变革在于其创新的长上下文窗口功能。这一功能使模型能够一次性处理前所未有的令牌数量——构成文字、图像或视频的基本单位。为了阐明这一进步,我们咨询了Google DeepMind项目团队,了解长上下文窗口的本质及其如何革新开发者工作方式。
理解长上下文窗口至关重要,因为它们使AI模型能够在整个会话中保持和回忆信息。想象一下,在对话中刚提到一个名字几分钟后就试图回忆,或者急于在忘记之前写下电话号码。AI模型面临类似挑战,通常在几次交互后“忘记”细节。长上下文窗口通过让模型在其“记忆”中保留更多信息来解决这一问题。
此前,Gemini模型可同时处理高达32,000个令牌。然而,随着1.5 Pro版本的早期测试发布,我们将界限推至惊人的100万个令牌——迄今为止任何大规模基础模型中最大的上下文窗口。我们的研究甚至超越了这一数字,成功测试了高达1000万个令牌。上下文窗口越大,模型能处理的数据——文本、图像、音频、代码或视频——就越多样和广泛。
Google DeepMind研究科学家、长上下文项目负责人之一Nikolay Savinov分享道:“我们的初步目标是达到128,000个令牌,但我认为目标更高会更有益,于是我提出了100万个令牌。现在,我们的研究成果已超出这一目标10倍。”
实现这一飞跃需要一系列深度学习创新。Pranav Shyam的早期探索提供了关键见解,指导了我们的研究。Google DeepMind工程师Denis Teplyashin解释说:“每项突破都引领了另一项突破,开辟了新的可能性。当这些创新结合时,我们对结果感到震惊,从128,000个令牌扩展到512,000个,然后是100万个,最近在内部研究中达到了1000万个令牌。”
1.5 Pro的扩展能力开启了令人兴奋的新应用。例如,以前模型只能总结几十页的文档,现在它可以处理数千页的文档。之前的模型能分析数千行代码,而1.5 Pro现在可以一次性处理数万行代码。
另一位Google DeepMind研究科学家Machel Reid分享了一些引人注目的测试结果:“在一次测试中,我们将整个代码库输入模型,它生成了全面的文档,真是不可思议。在另一次测试中,它在‘观看’完整的45分钟1924年电影《Sherlock Jr.》后,准确回答了相关问题。”
1.5 Pro还在提示中的数据推理方面表现出色。Machel举了一个涉及稀有语言Kalamang的例子,这种语言全球仅有不到200人使用。“模型本身无法翻译成Kalamang,但通过长上下文窗口,我们可以包含整个语法手册和示例句子。模型随后学会了从英语翻译到Kalamang,水平堪比从相同材料学习的人。”
Gemini 1.5 Pro标配128K令牌的上下文窗口,但部分开发者和企业客户可以通过AI Studio和Vertex AI在私人预览中访问100万个令牌的上下文窗口。管理如此大的上下文窗口在计算上非常密集,我们正在积极优化以减少延迟,同时扩大规模。
展望未来,团队专注于使模型更快、更高效,同时以安全性为优先。他们还在探索进一步扩展长上下文窗口、增强底层架构以及利用新硬件改进的方法。Nikolay指出:“一次性处理1000万个令牌已接近我们Tensor Processing Units的热极限。我们还不确定极限在哪里,随着硬件的持续发展,模型可能具备更多能力。”
团队期待看到开发者和更广泛社区利用这些新功能创造的创新应用。Machel反思道:“当我第一次看到我们有100万个令牌的上下文时,我想,‘这能用来做什么?’但现在,我相信人们的想象力会扩展,带来更多创造性的新功能应用。”
[ttpp][yyxx]

巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要
尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
YouTube将AI深度伪造检测功能扩展至政界人士、政府官员和记者
周二,YouTube宣布将把其深度伪造(deepfake)检测技术推广至部分政府官员、政治候选人和记者。该工具可识别由人工智能生成的肖像,并允许试点参与者申请删除其认为违反YouTube政策的未经授权内容。该检测系统在经过前期测试阶段后,于去年首次向约400万名YouTube合作伙伴计划的创作者推出。与YouTube现有的用于保护版权内容的Content ID系统类似,该肖像检测功能可识别AI模拟
すごい!長文コンテキストの機能が実用化されたら、研究やビジネス文書の分析が一気に楽になりそう🤩。でもこれ、倫理面でどうなんだろう?膨大なデータを読み込むということは、プライバシー問題も発生しそうで少し不安…。他社は今後どう追従するのか気になるなぁ。開発スピード速すぎて置いていかれそう!
Super cool to see Gemini 1.5's long context window in action! 😎 Makes me wonder how it'll handle massive datasets compared to older models.
Wow, the long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Excited to see where this takes AI! 🚀
The long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Any cool examples out there yet? 🤔





首页






