了解長上下文窗口:關鍵見解
昨日,我們展示了AI技術的最新突破——Gemini 1.5模型。此新版本在速度和效率上帶來顯著提升,但真正的改變遊戲規則的是其創新的長上下文窗口。此功能使模型能同時處理前所未有的令牌數量——構成文字、圖像或影片的基本單位。為了解釋這一進展,我們請教了Google DeepMind項目團隊,了解長上下文窗口是什麼,以及它如何改變開發者的工作方式。
理解長上下文窗口至關重要,因為它們使AI模型能在整個會話中保持並回憶資訊。想像在對話中幾分鐘後試圖記住一個名字,或急於記下電話號碼以免忘記。AI模型面臨類似挑戰,常常在幾次互動後「忘記」細節。長上下文窗口通過讓模型在其「記憶」中保留更多資訊來解決這個問題。
此前,Gemini模型能同時處理高達32,000個令牌。然而,隨著1.5 Pro版本的早期測試發布,我們將界限推至驚人的100萬個令牌——這是迄今為止任何大型基礎模型中最大的上下文窗口。我們的研究甚至超越了這一點,成功測試了高達1000萬個令牌。上下文窗口越大,模型能處理的資料——文字、圖像、音訊、程式碼或影片——就越多元且廣泛。
Google DeepMind研究科學家、長上下文項目負責人之一Nikolay Savinov分享道:「我們的初步目標是達到128,000個令牌,但我認為設定更高目標會更有益,因此我提出了100萬個令牌。現在,我們的研究已超過這個目標十倍。」
實現這一飛躍需要一系列深度學習創新。Pranav Shyam的早期探索提供了關鍵見解,引導了我們的研究。Google DeepMind工程師Denis Teplyashin解釋說:「每一個突破都帶來了新的可能性。當這些創新結合時,我們對結果感到震驚,從128,000個令牌擴展到512,000個,然後是100萬個,最近在我們的內部研究中達到1000萬個令牌。」
1.5 Pro的擴展容量開啟了令人興奮的新應用。例如,過去模型能總結數十頁的文檔,現在它能處理長達數千頁的文檔。之前的模型能分析數千行程式碼,而1.5 Pro現在能一次處理數萬行程式碼。
另一位Google DeepMind研究科學家Machel Reid分享了一些引人入勝的測試結果:「在一次測試中,我們將整個程式碼庫輸入模型,它為其生成了全面的文檔,這非常了不起。在另一次測試中,它在『觀看』整部45分鐘的1924年電影《Sherlock Jr.》後,準確回答了相關問題。」
1.5 Pro還擅長在提示中的資料間進行推理。Machel舉了一個涉及稀有語言Kalamang的例子,全球說這種語言的人不到200人。「模型本身無法直接翻譯成Kalamang,但有了長上下文窗口,我們可以包含整個語法手冊和例句。模型隨後學會了從英文翻譯到Kalamang,表現與從相同材料學習的人相當。」
Gemini 1.5 Pro配備標準的128K令牌上下文窗口,但部分開發者和企業客戶可通過AI Studio和Vertex AI在私人預覽中訪問100萬令牌的上下文窗口。管理如此大的上下文窗口需要大量計算,我們正在積極優化以降低延遲並擴展其規模。
展望未來,團隊專注於使模型更快、更高效,並以安全為優先。他們還在探索進一步擴展長上下文窗口、增強底層架構以及利用新硬體改進的方法。Nikolay指出:「一次性處理1000萬個令牌已接近我們Tensor Processing Units的熱限制。我們尚未確定極限在哪裡,隨著硬體的不斷進化,模型可能具備更多能力。」
團隊迫切希望看到開發者和更廣泛的社群利用這些新功能創造出創新的應用。Machel反思道:「當我第一次看到我們擁有100萬個令牌的上下文時,我想,『這到底能用來做什麼?』但現在,我相信人們的想像力將會擴展,帶來更多這些新功能的創意應用。」
[ttpp][yyxx]

相關文章
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Kakao Mobility 概述了針對實體人工智慧的第 4 級自動駕駛路線圖
Kakao Mobility 計畫內部開發第 4 級自動駕駛技術,作為其實體人工智慧策略的一環。在首爾COEX舉行的2026年世界資訊科技展(World IT Show)會議上,Kakao Mobility副總裁兼實體AI部門負責人金鎮奎(Kim Jin-kyu)發表了該發展藍圖。他的演講聚焦於實體AI時代以移動平台為核心的自動駕駛服務。據韓聯社報導,這場名為「超越構想,付諸行動:AI 推動現
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要
儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理
相關專題推薦
評論 (30)
0/500
すごい!長文コンテキストの機能が実用化されたら、研究やビジネス文書の分析が一気に楽になりそう🤩。でもこれ、倫理面でどうなんだろう?膨大なデータを読み込むということは、プライバシー問題も発生しそうで少し不安…。他社は今後どう追従するのか気になるなぁ。開発スピード速すぎて置いていかれそう!
Super cool to see Gemini 1.5's long context window in action! 😎 Makes me wonder how it'll handle massive datasets compared to older models.
Wow, the long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Excited to see where this takes AI! 🚀
The long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Any cool examples out there yet? 🤔
昨日,我們展示了AI技術的最新突破——Gemini 1.5模型。此新版本在速度和效率上帶來顯著提升,但真正的改變遊戲規則的是其創新的長上下文窗口。此功能使模型能同時處理前所未有的令牌數量——構成文字、圖像或影片的基本單位。為了解釋這一進展,我們請教了Google DeepMind項目團隊,了解長上下文窗口是什麼,以及它如何改變開發者的工作方式。
理解長上下文窗口至關重要,因為它們使AI模型能在整個會話中保持並回憶資訊。想像在對話中幾分鐘後試圖記住一個名字,或急於記下電話號碼以免忘記。AI模型面臨類似挑戰,常常在幾次互動後「忘記」細節。長上下文窗口通過讓模型在其「記憶」中保留更多資訊來解決這個問題。
此前,Gemini模型能同時處理高達32,000個令牌。然而,隨著1.5 Pro版本的早期測試發布,我們將界限推至驚人的100萬個令牌——這是迄今為止任何大型基礎模型中最大的上下文窗口。我們的研究甚至超越了這一點,成功測試了高達1000萬個令牌。上下文窗口越大,模型能處理的資料——文字、圖像、音訊、程式碼或影片——就越多元且廣泛。
Google DeepMind研究科學家、長上下文項目負責人之一Nikolay Savinov分享道:「我們的初步目標是達到128,000個令牌,但我認為設定更高目標會更有益,因此我提出了100萬個令牌。現在,我們的研究已超過這個目標十倍。」
實現這一飛躍需要一系列深度學習創新。Pranav Shyam的早期探索提供了關鍵見解,引導了我們的研究。Google DeepMind工程師Denis Teplyashin解釋說:「每一個突破都帶來了新的可能性。當這些創新結合時,我們對結果感到震驚,從128,000個令牌擴展到512,000個,然後是100萬個,最近在我們的內部研究中達到1000萬個令牌。」
1.5 Pro的擴展容量開啟了令人興奮的新應用。例如,過去模型能總結數十頁的文檔,現在它能處理長達數千頁的文檔。之前的模型能分析數千行程式碼,而1.5 Pro現在能一次處理數萬行程式碼。
另一位Google DeepMind研究科學家Machel Reid分享了一些引人入勝的測試結果:「在一次測試中,我們將整個程式碼庫輸入模型,它為其生成了全面的文檔,這非常了不起。在另一次測試中,它在『觀看』整部45分鐘的1924年電影《Sherlock Jr.》後,準確回答了相關問題。」
1.5 Pro還擅長在提示中的資料間進行推理。Machel舉了一個涉及稀有語言Kalamang的例子,全球說這種語言的人不到200人。「模型本身無法直接翻譯成Kalamang,但有了長上下文窗口,我們可以包含整個語法手冊和例句。模型隨後學會了從英文翻譯到Kalamang,表現與從相同材料學習的人相當。」
Gemini 1.5 Pro配備標準的128K令牌上下文窗口,但部分開發者和企業客戶可通過AI Studio和Vertex AI在私人預覽中訪問100萬令牌的上下文窗口。管理如此大的上下文窗口需要大量計算,我們正在積極優化以降低延遲並擴展其規模。
展望未來,團隊專注於使模型更快、更高效,並以安全為優先。他們還在探索進一步擴展長上下文窗口、增強底層架構以及利用新硬體改進的方法。Nikolay指出:「一次性處理1000萬個令牌已接近我們Tensor Processing Units的熱限制。我們尚未確定極限在哪裡,隨著硬體的不斷進化,模型可能具備更多能力。」
團隊迫切希望看到開發者和更廣泛的社群利用這些新功能創造出創新的應用。Machel反思道:「當我第一次看到我們擁有100萬個令牌的上下文時,我想,『這到底能用來做什麼?』但現在,我相信人們的想像力將會擴展,帶來更多這些新功能的創意應用。」
[ttpp][yyxx]

WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要
儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理
すごい!長文コンテキストの機能が実用化されたら、研究やビジネス文書の分析が一気に楽になりそう🤩。でもこれ、倫理面でどうなんだろう?膨大なデータを読み込むということは、プライバシー問題も発生しそうで少し不安…。他社は今後どう追従するのか気になるなぁ。開発スピード速すぎて置いていかれそう!
Super cool to see Gemini 1.5's long context window in action! 😎 Makes me wonder how it'll handle massive datasets compared to older models.
Wow, the long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Excited to see where this takes AI! 🚀
The long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Any cool examples out there yet? 🤔





首頁






