了解长上下文窗口:关键见解
昨日,我们发布了AI技术领域的最新突破——Gemini 1.5模型。这一新版本在速度和效率方面带来显著提升,但真正的变革在于其创新的长上下文窗口功能。这一功能使模型能够一次性处理前所未有的令牌数量——构成文字、图像或视频的基本单位。为了阐明这一进步,我们咨询了Google DeepMind项目团队,了解长上下文窗口的本质及其如何革新开发者工作方式。
理解长上下文窗口至关重要,因为它们使AI模型能够在整个会话中保持和回忆信息。想象一下,在对话中刚提到一个名字几分钟后就试图回忆,或者急于在忘记之前写下电话号码。AI模型面临类似挑战,通常在几次交互后“忘记”细节。长上下文窗口通过让模型在其“记忆”中保留更多信息来解决这一问题。
此前,Gemini模型可同时处理高达32,000个令牌。然而,随着1.5 Pro版本的早期测试发布,我们将界限推至惊人的100万个令牌——迄今为止任何大规模基础模型中最大的上下文窗口。我们的研究甚至超越了这一数字,成功测试了高达1000万个令牌。上下文窗口越大,模型能处理的数据——文本、图像、音频、代码或视频——就越多样和广泛。
Google DeepMind研究科学家、长上下文项目负责人之一Nikolay Savinov分享道:“我们的初步目标是达到128,000个令牌,但我认为目标更高会更有益,于是我提出了100万个令牌。现在,我们的研究成果已超出这一目标10倍。”
实现这一飞跃需要一系列深度学习创新。Pranav Shyam的早期探索提供了关键见解,指导了我们的研究。Google DeepMind工程师Denis Teplyashin解释说:“每项突破都引领了另一项突破,开辟了新的可能性。当这些创新结合时,我们对结果感到震惊,从128,000个令牌扩展到512,000个,然后是100万个,最近在内部研究中达到了1000万个令牌。”
1.5 Pro的扩展能力开启了令人兴奋的新应用。例如,以前模型只能总结几十页的文档,现在它可以处理数千页的文档。之前的模型能分析数千行代码,而1.5 Pro现在可以一次性处理数万行代码。
另一位Google DeepMind研究科学家Machel Reid分享了一些引人注目的测试结果:“在一次测试中,我们将整个代码库输入模型,它生成了全面的文档,真是不可思议。在另一次测试中,它在‘观看’完整的45分钟1924年电影《Sherlock Jr.》后,准确回答了相关问题。”
1.5 Pro还在提示中的数据推理方面表现出色。Machel举了一个涉及稀有语言Kalamang的例子,这种语言全球仅有不到200人使用。“模型本身无法翻译成Kalamang,但通过长上下文窗口,我们可以包含整个语法手册和示例句子。模型随后学会了从英语翻译到Kalamang,水平堪比从相同材料学习的人。”
Gemini 1.5 Pro标配128K令牌的上下文窗口,但部分开发者和企业客户可以通过AI Studio和Vertex AI在私人预览中访问100万个令牌的上下文窗口。管理如此大的上下文窗口在计算上非常密集,我们正在积极优化以减少延迟,同时扩大规模。
展望未来,团队专注于使模型更快、更高效,同时以安全性为优先。他们还在探索进一步扩展长上下文窗口、增强底层架构以及利用新硬件改进的方法。Nikolay指出:“一次性处理1000万个令牌已接近我们Tensor Processing Units的热极限。我们还不确定极限在哪里,随着硬件的持续发展,模型可能具备更多能力。”
团队期待看到开发者和更广泛社区利用这些新功能创造的创新应用。Machel反思道:“当我第一次看到我们有100万个令牌的上下文时,我想,‘这能用来做什么?’但现在,我相信人们的想象力会扩展,带来更多创造性的新功能应用。”
[ttpp][yyxx]

相关文章
"Dot AI伴侣应用程序宣布关闭,停止个性化服务
Dot 是一款人工智能伴侣应用程序,旨在充当个人朋友和知己,根据其开发者周五发布的公告,Dot 将停止运营。Dot背后的初创公司New Computer在其网站上表示,该服务将持续到10月5日,以便用户有时间导出个人数据。今年早些时候,联合创始人山姆-惠特莫尔(Sam Whitmore)和前苹果设计专家杰森-袁(Jason Yuan)合作推出了这款应用程序。Dot 进入了日益受到关注的情感人工智能
Anthropic 解决了人工智能生成盗版图书的法律案件
Anthropic公司与美国作家达成了一项重要的版权纠纷解决方案,同意拟议的集体诉讼和解,避免了可能代价高昂的审判。本周二在法庭文件中提交的这份协议源于对这家人工智能公司使用盗版文学作品训练克劳德模型的指控。尽管此案源于作家安德烈娅-巴茨(Andrea Bartz)、查尔斯-格雷伯(Charles Graeber)和柯克-华莱士-约翰逊(Kirk Wallace Johnson)的指控,但和解细节
Figma 向所有用户发布人工智能驱动的应用程序生成工具
Figma Make 是今年早些时候推出的创新型提示到应用开发平台,现已正式退出测试版,并向所有用户推出。这一开创性的工具加入了人工智能编码助手的行列,如谷歌的 Gemini Code Assist 和微软的 GitHub Copilot,使创作者能够将自然语言描述转化为功能原型和应用程序,而无需传统的编程专业知识。Figma Make 最初在测试阶段只对高级 "全席 "用户开放,现在对所有账户类
评论 (28)
0/200
KeithSmith
2025-08-17 15:00:59
Super cool to see Gemini 1.5's long context window in action! 😎 Makes me wonder how it'll handle massive datasets compared to older models.
0
RobertSanchez
2025-07-31 09:41:19
Wow, the long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Excited to see where this takes AI! 🚀
0
DavidGonzález
2025-07-28 09:19:30
The long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Any cool examples out there yet? 🤔
0
RobertRoberts
2025-04-17 07:56:25
Cửa sổ ngữ cảnh dài của Gemini 1.5 thực sự là một bước tiến lớn! Thật đáng kinh ngạc khi nó có thể xử lý nhiều hơn so với các mô hình cũ. Chỉ mong nó nhanh hơn một chút. Tuy nhiên, đây là một bước tiến lớn! 💪
0
MatthewGonzalez
2025-04-16 23:41:59
A janela de contexto longo do Gemini 1.5 é revolucionária, sem dúvida! Mas às vezes parece que está tentando fazer muito de uma vez, o que pode atrasar as coisas. Ainda assim, para processar grandes quantidades de dados, é imbatível. Vale a pena conferir! 🚀
0
NicholasRoberts
2025-04-15 06:59:46
Gemini 1.5's long context window is a game-changer, no doubt! But sometimes it feels like it's trying to do too much at once, which can slow things down. Still, for processing huge chunks of data, it's unbeatable. Worth checking out! 🚀
0
昨日,我们发布了AI技术领域的最新突破——Gemini 1.5模型。这一新版本在速度和效率方面带来显著提升,但真正的变革在于其创新的长上下文窗口功能。这一功能使模型能够一次性处理前所未有的令牌数量——构成文字、图像或视频的基本单位。为了阐明这一进步,我们咨询了Google DeepMind项目团队,了解长上下文窗口的本质及其如何革新开发者工作方式。
理解长上下文窗口至关重要,因为它们使AI模型能够在整个会话中保持和回忆信息。想象一下,在对话中刚提到一个名字几分钟后就试图回忆,或者急于在忘记之前写下电话号码。AI模型面临类似挑战,通常在几次交互后“忘记”细节。长上下文窗口通过让模型在其“记忆”中保留更多信息来解决这一问题。
此前,Gemini模型可同时处理高达32,000个令牌。然而,随着1.5 Pro版本的早期测试发布,我们将界限推至惊人的100万个令牌——迄今为止任何大规模基础模型中最大的上下文窗口。我们的研究甚至超越了这一数字,成功测试了高达1000万个令牌。上下文窗口越大,模型能处理的数据——文本、图像、音频、代码或视频——就越多样和广泛。
Google DeepMind研究科学家、长上下文项目负责人之一Nikolay Savinov分享道:“我们的初步目标是达到128,000个令牌,但我认为目标更高会更有益,于是我提出了100万个令牌。现在,我们的研究成果已超出这一目标10倍。”
实现这一飞跃需要一系列深度学习创新。Pranav Shyam的早期探索提供了关键见解,指导了我们的研究。Google DeepMind工程师Denis Teplyashin解释说:“每项突破都引领了另一项突破,开辟了新的可能性。当这些创新结合时,我们对结果感到震惊,从128,000个令牌扩展到512,000个,然后是100万个,最近在内部研究中达到了1000万个令牌。”
1.5 Pro的扩展能力开启了令人兴奋的新应用。例如,以前模型只能总结几十页的文档,现在它可以处理数千页的文档。之前的模型能分析数千行代码,而1.5 Pro现在可以一次性处理数万行代码。
另一位Google DeepMind研究科学家Machel Reid分享了一些引人注目的测试结果:“在一次测试中,我们将整个代码库输入模型,它生成了全面的文档,真是不可思议。在另一次测试中,它在‘观看’完整的45分钟1924年电影《Sherlock Jr.》后,准确回答了相关问题。”
1.5 Pro还在提示中的数据推理方面表现出色。Machel举了一个涉及稀有语言Kalamang的例子,这种语言全球仅有不到200人使用。“模型本身无法翻译成Kalamang,但通过长上下文窗口,我们可以包含整个语法手册和示例句子。模型随后学会了从英语翻译到Kalamang,水平堪比从相同材料学习的人。”
Gemini 1.5 Pro标配128K令牌的上下文窗口,但部分开发者和企业客户可以通过AI Studio和Vertex AI在私人预览中访问100万个令牌的上下文窗口。管理如此大的上下文窗口在计算上非常密集,我们正在积极优化以减少延迟,同时扩大规模。
展望未来,团队专注于使模型更快、更高效,同时以安全性为优先。他们还在探索进一步扩展长上下文窗口、增强底层架构以及利用新硬件改进的方法。Nikolay指出:“一次性处理1000万个令牌已接近我们Tensor Processing Units的热极限。我们还不确定极限在哪里,随着硬件的持续发展,模型可能具备更多能力。”
团队期待看到开发者和更广泛社区利用这些新功能创造的创新应用。Machel反思道:“当我第一次看到我们有100万个令牌的上下文时,我想,‘这能用来做什么?’但现在,我相信人们的想象力会扩展,带来更多创造性的新功能应用。”
[ttpp][yyxx]



Super cool to see Gemini 1.5's long context window in action! 😎 Makes me wonder how it'll handle massive datasets compared to older models.




Wow, the long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Excited to see where this takes AI! 🚀




The long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Any cool examples out there yet? 🤔




Cửa sổ ngữ cảnh dài của Gemini 1.5 thực sự là một bước tiến lớn! Thật đáng kinh ngạc khi nó có thể xử lý nhiều hơn so với các mô hình cũ. Chỉ mong nó nhanh hơn một chút. Tuy nhiên, đây là một bước tiến lớn! 💪




A janela de contexto longo do Gemini 1.5 é revolucionária, sem dúvida! Mas às vezes parece que está tentando fazer muito de uma vez, o que pode atrasar as coisas. Ainda assim, para processar grandes quantidades de dados, é imbatível. Vale a pena conferir! 🚀




Gemini 1.5's long context window is a game-changer, no doubt! But sometimes it feels like it's trying to do too much at once, which can slow things down. Still, for processing huge chunks of data, it's unbeatable. Worth checking out! 🚀












