了解長上下文窗口:關鍵見解
昨日,我們展示了AI技術的最新突破——Gemini 1.5模型。此新版本在速度和效率上帶來顯著提升,但真正的改變遊戲規則的是其創新的長上下文窗口。此功能使模型能同時處理前所未有的令牌數量——構成文字、圖像或影片的基本單位。為了解釋這一進展,我們請教了Google DeepMind項目團隊,了解長上下文窗口是什麼,以及它如何改變開發者的工作方式。
理解長上下文窗口至關重要,因為它們使AI模型能在整個會話中保持並回憶資訊。想像在對話中幾分鐘後試圖記住一個名字,或急於記下電話號碼以免忘記。AI模型面臨類似挑戰,常常在幾次互動後「忘記」細節。長上下文窗口通過讓模型在其「記憶」中保留更多資訊來解決這個問題。
此前,Gemini模型能同時處理高達32,000個令牌。然而,隨著1.5 Pro版本的早期測試發布,我們將界限推至驚人的100萬個令牌——這是迄今為止任何大型基礎模型中最大的上下文窗口。我們的研究甚至超越了這一點,成功測試了高達1000萬個令牌。上下文窗口越大,模型能處理的資料——文字、圖像、音訊、程式碼或影片——就越多元且廣泛。
Google DeepMind研究科學家、長上下文項目負責人之一Nikolay Savinov分享道:「我們的初步目標是達到128,000個令牌,但我認為設定更高目標會更有益,因此我提出了100萬個令牌。現在,我們的研究已超過這個目標十倍。」
實現這一飛躍需要一系列深度學習創新。Pranav Shyam的早期探索提供了關鍵見解,引導了我們的研究。Google DeepMind工程師Denis Teplyashin解釋說:「每一個突破都帶來了新的可能性。當這些創新結合時,我們對結果感到震驚,從128,000個令牌擴展到512,000個,然後是100萬個,最近在我們的內部研究中達到1000萬個令牌。」
1.5 Pro的擴展容量開啟了令人興奮的新應用。例如,過去模型能總結數十頁的文檔,現在它能處理長達數千頁的文檔。之前的模型能分析數千行程式碼,而1.5 Pro現在能一次處理數萬行程式碼。
另一位Google DeepMind研究科學家Machel Reid分享了一些引人入勝的測試結果:「在一次測試中,我們將整個程式碼庫輸入模型,它為其生成了全面的文檔,這非常了不起。在另一次測試中,它在『觀看』整部45分鐘的1924年電影《Sherlock Jr.》後,準確回答了相關問題。」
1.5 Pro還擅長在提示中的資料間進行推理。Machel舉了一個涉及稀有語言Kalamang的例子,全球說這種語言的人不到200人。「模型本身無法直接翻譯成Kalamang,但有了長上下文窗口,我們可以包含整個語法手冊和例句。模型隨後學會了從英文翻譯到Kalamang,表現與從相同材料學習的人相當。」
Gemini 1.5 Pro配備標準的128K令牌上下文窗口,但部分開發者和企業客戶可通過AI Studio和Vertex AI在私人預覽中訪問100萬令牌的上下文窗口。管理如此大的上下文窗口需要大量計算,我們正在積極優化以降低延遲並擴展其規模。
展望未來,團隊專注於使模型更快、更高效,並以安全為優先。他們還在探索進一步擴展長上下文窗口、增強底層架構以及利用新硬體改進的方法。Nikolay指出:「一次性處理1000萬個令牌已接近我們Tensor Processing Units的熱限制。我們尚未確定極限在哪裡,隨著硬體的不斷進化,模型可能具備更多能力。」
團隊迫切希望看到開發者和更廣泛的社群利用這些新功能創造出創新的應用。Machel反思道:「當我第一次看到我們擁有100萬個令牌的上下文時,我想,『這到底能用來做什麼?』但現在,我相信人們的想像力將會擴展,帶來更多這些新功能的創意應用。」
[ttpp][yyxx]

相關文章
川普將人工智慧的成長優先於管制,爭取超越中國
川普政府於週三公佈了具有里程碑意義的「人工智慧行動計畫」,標誌著與拜登政府迴避風險的人工智慧政策的決裂。這份雄心勃勃的藍圖將積極發展基礎設施、全面放寬監管、加強國家安全措施以及與中國在人工智能領域的戰略競爭放在首位。政策的轉變可能會對經濟和社會產生廣泛的影響,特別是在能源使用和環境法規方面。政府建議擴大資料中心建設,包括在聯邦土地上,同時可能放寬能源需求高峰期的環境保護,這些決定可能會影響產業和消
YouTube 將 Veo 3 AI 視訊工具直接整合至短片平台
YouTube Shorts 今年夏天將採用 Veo 3 AI 視訊模型YouTube 執行長 Neal Mohan 在坎城獅子獎主題演講中透露,該平台最尖端的 Veo 3 AI 影片生成技術將於今年夏天稍後在 YouTube Shorts 上亮相。在此之前,Allison Johnson 曾發表評論,將 Veo 3 描述為 AI 輔助內容創作的革命。目前,Shorts 製作人員透過 Dream
Google Cloud 為科學研究與發現的突破提供動力
數位革命正透過前所未有的計算能力改變科學方法。尖端技術現在可增強理論框架和實驗室實驗,透過精密模擬和大數據分析,推動各學科的突破。透過策略性地投資於基礎研究、可擴充的雲端架構和人工智慧開發,我們建立了一個加速科學進步的生態系統。我們的貢獻橫跨醫藥研究、氣候建模和奈米技術等領域的突破性創新,並輔以世界級的運算基礎架構、雲端原生軟體解決方案和新一代的生成式人工智慧平台。Google DeepMind
評論 (28)
0/200
KeithSmith
2025-08-17 15:00:59
Super cool to see Gemini 1.5's long context window in action! 😎 Makes me wonder how it'll handle massive datasets compared to older models.
0
RobertSanchez
2025-07-31 09:41:19
Wow, the long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Excited to see where this takes AI! 🚀
0
DavidGonzález
2025-07-28 09:19:30
The long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Any cool examples out there yet? 🤔
0
RobertRoberts
2025-04-17 07:56:25
Cửa sổ ngữ cảnh dài của Gemini 1.5 thực sự là một bước tiến lớn! Thật đáng kinh ngạc khi nó có thể xử lý nhiều hơn so với các mô hình cũ. Chỉ mong nó nhanh hơn một chút. Tuy nhiên, đây là một bước tiến lớn! 💪
0
MatthewGonzalez
2025-04-16 23:41:59
A janela de contexto longo do Gemini 1.5 é revolucionária, sem dúvida! Mas às vezes parece que está tentando fazer muito de uma vez, o que pode atrasar as coisas. Ainda assim, para processar grandes quantidades de dados, é imbatível. Vale a pena conferir! 🚀
0
NicholasRoberts
2025-04-15 06:59:46
Gemini 1.5's long context window is a game-changer, no doubt! But sometimes it feels like it's trying to do too much at once, which can slow things down. Still, for processing huge chunks of data, it's unbeatable. Worth checking out! 🚀
0
昨日,我們展示了AI技術的最新突破——Gemini 1.5模型。此新版本在速度和效率上帶來顯著提升,但真正的改變遊戲規則的是其創新的長上下文窗口。此功能使模型能同時處理前所未有的令牌數量——構成文字、圖像或影片的基本單位。為了解釋這一進展,我們請教了Google DeepMind項目團隊,了解長上下文窗口是什麼,以及它如何改變開發者的工作方式。
理解長上下文窗口至關重要,因為它們使AI模型能在整個會話中保持並回憶資訊。想像在對話中幾分鐘後試圖記住一個名字,或急於記下電話號碼以免忘記。AI模型面臨類似挑戰,常常在幾次互動後「忘記」細節。長上下文窗口通過讓模型在其「記憶」中保留更多資訊來解決這個問題。
此前,Gemini模型能同時處理高達32,000個令牌。然而,隨著1.5 Pro版本的早期測試發布,我們將界限推至驚人的100萬個令牌——這是迄今為止任何大型基礎模型中最大的上下文窗口。我們的研究甚至超越了這一點,成功測試了高達1000萬個令牌。上下文窗口越大,模型能處理的資料——文字、圖像、音訊、程式碼或影片——就越多元且廣泛。
Google DeepMind研究科學家、長上下文項目負責人之一Nikolay Savinov分享道:「我們的初步目標是達到128,000個令牌,但我認為設定更高目標會更有益,因此我提出了100萬個令牌。現在,我們的研究已超過這個目標十倍。」
實現這一飛躍需要一系列深度學習創新。Pranav Shyam的早期探索提供了關鍵見解,引導了我們的研究。Google DeepMind工程師Denis Teplyashin解釋說:「每一個突破都帶來了新的可能性。當這些創新結合時,我們對結果感到震驚,從128,000個令牌擴展到512,000個,然後是100萬個,最近在我們的內部研究中達到1000萬個令牌。」
1.5 Pro的擴展容量開啟了令人興奮的新應用。例如,過去模型能總結數十頁的文檔,現在它能處理長達數千頁的文檔。之前的模型能分析數千行程式碼,而1.5 Pro現在能一次處理數萬行程式碼。
另一位Google DeepMind研究科學家Machel Reid分享了一些引人入勝的測試結果:「在一次測試中,我們將整個程式碼庫輸入模型,它為其生成了全面的文檔,這非常了不起。在另一次測試中,它在『觀看』整部45分鐘的1924年電影《Sherlock Jr.》後,準確回答了相關問題。」
1.5 Pro還擅長在提示中的資料間進行推理。Machel舉了一個涉及稀有語言Kalamang的例子,全球說這種語言的人不到200人。「模型本身無法直接翻譯成Kalamang,但有了長上下文窗口,我們可以包含整個語法手冊和例句。模型隨後學會了從英文翻譯到Kalamang,表現與從相同材料學習的人相當。」
Gemini 1.5 Pro配備標準的128K令牌上下文窗口,但部分開發者和企業客戶可通過AI Studio和Vertex AI在私人預覽中訪問100萬令牌的上下文窗口。管理如此大的上下文窗口需要大量計算,我們正在積極優化以降低延遲並擴展其規模。
展望未來,團隊專注於使模型更快、更高效,並以安全為優先。他們還在探索進一步擴展長上下文窗口、增強底層架構以及利用新硬體改進的方法。Nikolay指出:「一次性處理1000萬個令牌已接近我們Tensor Processing Units的熱限制。我們尚未確定極限在哪裡,隨著硬體的不斷進化,模型可能具備更多能力。」
團隊迫切希望看到開發者和更廣泛的社群利用這些新功能創造出創新的應用。Machel反思道:「當我第一次看到我們擁有100萬個令牌的上下文時,我想,『這到底能用來做什麼?』但現在,我相信人們的想像力將會擴展,帶來更多這些新功能的創意應用。」
[ttpp][yyxx]




Super cool to see Gemini 1.5's long context window in action! 😎 Makes me wonder how it'll handle massive datasets compared to older models.




Wow, the long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Excited to see where this takes AI! 🚀




The long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Any cool examples out there yet? 🤔




Cửa sổ ngữ cảnh dài của Gemini 1.5 thực sự là một bước tiến lớn! Thật đáng kinh ngạc khi nó có thể xử lý nhiều hơn so với các mô hình cũ. Chỉ mong nó nhanh hơn một chút. Tuy nhiên, đây là một bước tiến lớn! 💪




A janela de contexto longo do Gemini 1.5 é revolucionária, sem dúvida! Mas às vezes parece que está tentando fazer muito de uma vez, o que pode atrasar as coisas. Ainda assim, para processar grandes quantidades de dados, é imbatível. Vale a pena conferir! 🚀




Gemini 1.5's long context window is a game-changer, no doubt! But sometimes it feels like it's trying to do too much at once, which can slow things down. Still, for processing huge chunks of data, it's unbeatable. Worth checking out! 🚀












