了解长上下文窗口:关键见解
昨日,我们发布了AI技术领域的最新突破——Gemini 1.5模型。这一新版本在速度和效率方面带来显著提升,但真正的变革在于其创新的长上下文窗口功能。这一功能使模型能够一次性处理前所未有的令牌数量——构成文字、图像或视频的基本单位。为了阐明这一进步,我们咨询了Google DeepMind项目团队,了解长上下文窗口的本质及其如何革新开发者工作方式。
理解长上下文窗口至关重要,因为它们使AI模型能够在整个会话中保持和回忆信息。想象一下,在对话中刚提到一个名字几分钟后就试图回忆,或者急于在忘记之前写下电话号码。AI模型面临类似挑战,通常在几次交互后“忘记”细节。长上下文窗口通过让模型在其“记忆”中保留更多信息来解决这一问题。
此前,Gemini模型可同时处理高达32,000个令牌。然而,随着1.5 Pro版本的早期测试发布,我们将界限推至惊人的100万个令牌——迄今为止任何大规模基础模型中最大的上下文窗口。我们的研究甚至超越了这一数字,成功测试了高达1000万个令牌。上下文窗口越大,模型能处理的数据——文本、图像、音频、代码或视频——就越多样和广泛。
Google DeepMind研究科学家、长上下文项目负责人之一Nikolay Savinov分享道:“我们的初步目标是达到128,000个令牌,但我认为目标更高会更有益,于是我提出了100万个令牌。现在,我们的研究成果已超出这一目标10倍。”
实现这一飞跃需要一系列深度学习创新。Pranav Shyam的早期探索提供了关键见解,指导了我们的研究。Google DeepMind工程师Denis Teplyashin解释说:“每项突破都引领了另一项突破,开辟了新的可能性。当这些创新结合时,我们对结果感到震惊,从128,000个令牌扩展到512,000个,然后是100万个,最近在内部研究中达到了1000万个令牌。”
1.5 Pro的扩展能力开启了令人兴奋的新应用。例如,以前模型只能总结几十页的文档,现在它可以处理数千页的文档。之前的模型能分析数千行代码,而1.5 Pro现在可以一次性处理数万行代码。
另一位Google DeepMind研究科学家Machel Reid分享了一些引人注目的测试结果:“在一次测试中,我们将整个代码库输入模型,它生成了全面的文档,真是不可思议。在另一次测试中,它在‘观看’完整的45分钟1924年电影《Sherlock Jr.》后,准确回答了相关问题。”
1.5 Pro还在提示中的数据推理方面表现出色。Machel举了一个涉及稀有语言Kalamang的例子,这种语言全球仅有不到200人使用。“模型本身无法翻译成Kalamang,但通过长上下文窗口,我们可以包含整个语法手册和示例句子。模型随后学会了从英语翻译到Kalamang,水平堪比从相同材料学习的人。”
Gemini 1.5 Pro标配128K令牌的上下文窗口,但部分开发者和企业客户可以通过AI Studio和Vertex AI在私人预览中访问100万个令牌的上下文窗口。管理如此大的上下文窗口在计算上非常密集,我们正在积极优化以减少延迟,同时扩大规模。
展望未来,团队专注于使模型更快、更高效,同时以安全性为优先。他们还在探索进一步扩展长上下文窗口、增强底层架构以及利用新硬件改进的方法。Nikolay指出:“一次性处理1000万个令牌已接近我们Tensor Processing Units的热极限。我们还不确定极限在哪里,随着硬件的持续发展,模型可能具备更多能力。”
团队期待看到开发者和更广泛社区利用这些新功能创造的创新应用。Machel反思道:“当我第一次看到我们有100万个令牌的上下文时,我想,‘这能用来做什么?’但现在,我相信人们的想象力会扩展,带来更多创造性的新功能应用。”
[ttpp][yyxx]

相关文章
Salesforce发布Slack AI数字队友对抗Microsoft Copilot
Salesforce推出全新职场AI策略,在Slack对话中引入专业“数字队友”,公司于周一公布。新工具Agentforce in Slack使企业能够创建和部署任务特定AI代理,搜索职场聊天,访问公司数据,并在员工日常使用的消息平台内执行操作。“正如专业员工协作解决问题,我们的客户需要AI代理协同工作,为客户和员工解决问题,”Salesforce Slack首席产品官Rob Seaman在Ven
甲骨文400亿美元英伟达芯片投资助推德克萨斯AI数据中心
据《金融时报》报道,甲骨文计划投资约400亿美元购买英伟达芯片,为OpenAI在德克萨斯州开发的大型新数据中心提供动力。这是迄今为止最大的芯片收购交易之一,凸显了对AI计算资源激增的需求。该设施位于德克萨斯州阿比林,是美国首个“星门”数据中心。由OpenAI和软银支持,这是构建大规模AI基础设施的更广泛计划的一部分。该德克萨斯中心计划于明年完工,将提供1.2吉瓦的计算能力,使其跻身全球最大数据中心
Meta AI应用将引入高级订阅和广告
Meta的AI应用可能很快推出付费订阅服务,效仿OpenAI、Google和Microsoft等竞争对手的做法。在2025年第一季度财报电话会议上,Meta首席执行官马克·扎克伯格概述了高级服务的计划,使用户能够访问增强的计算能力或Meta AI的额外功能。为了与ChatGPT竞争,Meta本周推出了一款独立AI应用,允许用户直接与聊天机器人互动并进行图像生成。该聊天机器人目前拥有近10亿用户,此
评论 (28)
0/200
KeithSmith
2025-08-17 15:00:59
Super cool to see Gemini 1.5's long context window in action! 😎 Makes me wonder how it'll handle massive datasets compared to older models.
0
RobertSanchez
2025-07-31 09:41:19
Wow, the long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Excited to see where this takes AI! 🚀
0
DavidGonzález
2025-07-28 09:19:30
The long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Any cool examples out there yet? 🤔
0
RobertRoberts
2025-04-17 07:56:25
Cửa sổ ngữ cảnh dài của Gemini 1.5 thực sự là một bước tiến lớn! Thật đáng kinh ngạc khi nó có thể xử lý nhiều hơn so với các mô hình cũ. Chỉ mong nó nhanh hơn một chút. Tuy nhiên, đây là một bước tiến lớn! 💪
0
MatthewGonzalez
2025-04-16 23:41:59
A janela de contexto longo do Gemini 1.5 é revolucionária, sem dúvida! Mas às vezes parece que está tentando fazer muito de uma vez, o que pode atrasar as coisas. Ainda assim, para processar grandes quantidades de dados, é imbatível. Vale a pena conferir! 🚀
0
NicholasRoberts
2025-04-15 06:59:46
Gemini 1.5's long context window is a game-changer, no doubt! But sometimes it feels like it's trying to do too much at once, which can slow things down. Still, for processing huge chunks of data, it's unbeatable. Worth checking out! 🚀
0
昨日,我们发布了AI技术领域的最新突破——Gemini 1.5模型。这一新版本在速度和效率方面带来显著提升,但真正的变革在于其创新的长上下文窗口功能。这一功能使模型能够一次性处理前所未有的令牌数量——构成文字、图像或视频的基本单位。为了阐明这一进步,我们咨询了Google DeepMind项目团队,了解长上下文窗口的本质及其如何革新开发者工作方式。
理解长上下文窗口至关重要,因为它们使AI模型能够在整个会话中保持和回忆信息。想象一下,在对话中刚提到一个名字几分钟后就试图回忆,或者急于在忘记之前写下电话号码。AI模型面临类似挑战,通常在几次交互后“忘记”细节。长上下文窗口通过让模型在其“记忆”中保留更多信息来解决这一问题。
此前,Gemini模型可同时处理高达32,000个令牌。然而,随着1.5 Pro版本的早期测试发布,我们将界限推至惊人的100万个令牌——迄今为止任何大规模基础模型中最大的上下文窗口。我们的研究甚至超越了这一数字,成功测试了高达1000万个令牌。上下文窗口越大,模型能处理的数据——文本、图像、音频、代码或视频——就越多样和广泛。
Google DeepMind研究科学家、长上下文项目负责人之一Nikolay Savinov分享道:“我们的初步目标是达到128,000个令牌,但我认为目标更高会更有益,于是我提出了100万个令牌。现在,我们的研究成果已超出这一目标10倍。”
实现这一飞跃需要一系列深度学习创新。Pranav Shyam的早期探索提供了关键见解,指导了我们的研究。Google DeepMind工程师Denis Teplyashin解释说:“每项突破都引领了另一项突破,开辟了新的可能性。当这些创新结合时,我们对结果感到震惊,从128,000个令牌扩展到512,000个,然后是100万个,最近在内部研究中达到了1000万个令牌。”
1.5 Pro的扩展能力开启了令人兴奋的新应用。例如,以前模型只能总结几十页的文档,现在它可以处理数千页的文档。之前的模型能分析数千行代码,而1.5 Pro现在可以一次性处理数万行代码。
另一位Google DeepMind研究科学家Machel Reid分享了一些引人注目的测试结果:“在一次测试中,我们将整个代码库输入模型,它生成了全面的文档,真是不可思议。在另一次测试中,它在‘观看’完整的45分钟1924年电影《Sherlock Jr.》后,准确回答了相关问题。”
1.5 Pro还在提示中的数据推理方面表现出色。Machel举了一个涉及稀有语言Kalamang的例子,这种语言全球仅有不到200人使用。“模型本身无法翻译成Kalamang,但通过长上下文窗口,我们可以包含整个语法手册和示例句子。模型随后学会了从英语翻译到Kalamang,水平堪比从相同材料学习的人。”
Gemini 1.5 Pro标配128K令牌的上下文窗口,但部分开发者和企业客户可以通过AI Studio和Vertex AI在私人预览中访问100万个令牌的上下文窗口。管理如此大的上下文窗口在计算上非常密集,我们正在积极优化以减少延迟,同时扩大规模。
展望未来,团队专注于使模型更快、更高效,同时以安全性为优先。他们还在探索进一步扩展长上下文窗口、增强底层架构以及利用新硬件改进的方法。Nikolay指出:“一次性处理1000万个令牌已接近我们Tensor Processing Units的热极限。我们还不确定极限在哪里,随着硬件的持续发展,模型可能具备更多能力。”
团队期待看到开发者和更广泛社区利用这些新功能创造的创新应用。Machel反思道:“当我第一次看到我们有100万个令牌的上下文时,我想,‘这能用来做什么?’但现在,我相信人们的想象力会扩展,带来更多创造性的新功能应用。”
[ttpp][yyxx]



Super cool to see Gemini 1.5's long context window in action! 😎 Makes me wonder how it'll handle massive datasets compared to older models.




Wow, the long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Excited to see where this takes AI! 🚀




The long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Any cool examples out there yet? 🤔




Cửa sổ ngữ cảnh dài của Gemini 1.5 thực sự là một bước tiến lớn! Thật đáng kinh ngạc khi nó có thể xử lý nhiều hơn so với các mô hình cũ. Chỉ mong nó nhanh hơn một chút. Tuy nhiên, đây là một bước tiến lớn! 💪




A janela de contexto longo do Gemini 1.5 é revolucionária, sem dúvida! Mas às vezes parece que está tentando fazer muito de uma vez, o que pode atrasar as coisas. Ainda assim, para processar grandes quantidades de dados, é imbatível. Vale a pena conferir! 🚀




Gemini 1.5's long context window is a game-changer, no doubt! But sometimes it feels like it's trying to do too much at once, which can slow things down. Still, for processing huge chunks of data, it's unbeatable. Worth checking out! 🚀












