長いコンテキストウィンドウの理解:重要な洞察
昨日、私たちはAI技術における最新のブレークスルーであるGemini 1.5モデルを発表しました。この新しいバージョンは、速度と効率において大幅な改善をもたらしますが、真のゲームチェンジャーはその革新的なロングコンテキストウィンドウです。この機能により、モデルは前例のない数のトークン—単語、画像、またはビデオを構成する基本単位—を一度に処理できます。この進歩について詳しく知るため、Google DeepMindプロジェクトチームにロングコンテキストウィンドウとは何か、そしてそれが開発者の作業方法をどのように革命化できるかについて話を聞きました。
ロングコンテキストウィンドウの理解は重要です。なぜなら、それによってAIモデルはセッション全体を通じて情報を保持し、思い出すことができるからです。会話で名前が言われてから数分後にその名前を思い出そうとしたり、電話番号を忘れる前に急いで書き留めようとしたりする状況を想像してください。AIモデルも同様の課題に直面し、数回のやり取り後に詳細を「忘れる」ことがよくあります。ロングコンテキストウィンドウは、モデルがより多くの情報を「記憶」に保持できるようにすることでこの問題を解決します。
以前のGeminiモデルは最大32,000トークンを同時に処理できました。しかし、1.5 Proの早期テスト向けリリースにより、私たちはその限界を驚異的な100万トークンに押し上げました—これまでで最大規模の基盤モデルのコンテキストウィンドウです。私たちの研究はさらにその先へ進み、最大1,000万トークンのテストに成功しました。コンテキストウィンドウが大きければ大きいほど、モデルが処理できるデータ—テキスト、画像、音声、コード、またはビデオ—の多様性と範囲が広がります。
Google DeepMindの研究科学者であり、ロングコンテキストプロジェクトのリーダーの一人であるNikolay Savinovは、次のように述べています。「私たちの当初の目標は128,000トークンに到達することでしたが、もっと高みを目指すことが有益だと考え、100万トークンを提案しました。そして今、私たちの研究はその10倍を超えています。」
この飛躍を達成するためには、一連の深層学習の革新が必要でした。Pranav Shyamの初期の探求は、私たちの研究を導く重要な洞察を提供しました。Google DeepMindのエンジニアであるDenis Teplyashinは、「各ブレークスルーが次のブレークスルーを生み、新しい可能性を開きました。これらの革新が組み合わさったとき、128,000トークンから512,000トークン、そして100万トークン、最近では内部研究で1,000万トークンにスケールアップした結果に驚きました。」と説明しました。
1.5 Proの拡張された容量は、刺激的な新しいアプリケーションを開拓します。たとえば、数十ページのドキュメントを要約する代わりに、1.5 Proは数千ページのドキュメントを処理できます。以前のモデルが数千行のコードを分析できたのに対し、1.5 Proは一度に数万行のコードを処理できます。
Google DeepMindの研究科学者であるMachel Reidは、興味深いテスト結果を共有しました。「あるテストでは、コードベース全体をモデルに入力し、包括的なドキュメントを生成しました。これは驚くべきことでした。別のテストでは、1924年の映画Sherlock Jr.を45分間「視聴」した後、正確に質問に答えました。」
1.5 Proは、プロンプト内のデータにわたる推論にも優れています。Machelは、世界中で200人未満しか話さない希少言語Kalamangを例に挙げました。「モデルは単独でKalamangに翻訳することはできませんが、ロングコンテキストウィンドウにより、文法マニュアル全体と例文を含めることができました。モデルは同じ資料から学ぶ人と同等のレベルで、英語からKalamangへの翻訳を学びました。」
Gemini 1.5 Proには標準の128Kトークンのコンテキストウィンドウが付属していますが、選択された開発者や企業顧客は、AI StudioおよびVertex AIを通じてプライベートプレビューで100万トークンのコンテキストウィンドウにアクセスできます。このような大規模なコンテキストウィンドウの管理は計算負荷が高く、私たちはスケールアップする際に遅延を減らすための最適化に積極的に取り組んでいます。
今後、チームはモデルの高速化と効率化に焦点を当て、安全性を優先しています。また、ロングコンテキストウィンドウのさらなる拡張、基盤アーキテクチャの強化、新しいハードウェアの改良の活用方法も探っています。Nikolayは、「一度に1,000万トークンは、テンサープロセッシングユニットの熱限界に近づいています。限界がどこにあるかはまだわかりませんが、ハードウェアが進化するにつれてモデルはさらに多くのことができる可能性があります。」と述べました。
チームは、開発者やより広いコミュニティがこれらの新しい機能でどのような革新的なアプリケーションを生み出すのかを楽しみにしています。Machelは、「初めて100万トークンのコンテキストを見たとき、『これは何に使うんだ?』と思いました。でも今、人々の想像力が広がり、これらの新しい機能のより創造的な活用方法が生まれると信じています。」と振り返りました。
[ttpp][yyxx]

関連記事
カカオ・モビリティ、物理AIに向けたレベル4自動運転のロードマップを提示
カカオ・モビリティは、フィジカルAI戦略の一環として、レベル4の自動運転技術を自社開発する計画だ。ソウルCOEXで開催された「2026ワールドITショー」のカンファレンスにおいて、カカオモビリティのフィジカルAI部門長兼副社長であるキム・ジンギュ氏がロードマップを発表した。同氏の講演は、フィジカルAI時代におけるモビリティプラットフォームを軸とした自動運転サービスに焦点を当てたものだった。聯合
バリー・ディラー:AGIの実現が近づく中、サム・アルトマンへの信頼は重要ではない
億万長者のメディア界の巨頭であるバリー・ディラー氏は、最近の報道でそのように示唆されているにもかかわらず、OpenAIのCEOサム・アルトマン氏が信頼できない人物だとは考えていない。今週開催されたウォール・ストリート・ジャーナル紙主催の「Future of Everything」カンファレンスで講演したディラー氏は、一部の元同僚や取締役から、時折人を利用したり欺いたりする傾向があるとの非難を受けて
YouTube、政治家、政府関係者、ジャーナリストを対象にAIによるディープフェイク検出機能を拡大
火曜日、YouTubeは、ディープフェイク検出技術を、特定の政府関係者、政治家候補者、ジャーナリストを対象に拡大すると発表した。このツールはAIによって生成された肖像を識別し、パイロットプログラムの参加者は、YouTubeのポリシーに違反していると判断した無断コンテンツの削除をリクエストできるようになる。この検出システムは、先行するテスト段階を経て、昨年、YouTubeパートナープログラムに参加す
関連特集おすすめ
コメント (30)
0/500
すごい!長文コンテキストの機能が実用化されたら、研究やビジネス文書の分析が一気に楽になりそう🤩。でもこれ、倫理面でどうなんだろう?膨大なデータを読み込むということは、プライバシー問題も発生しそうで少し不安…。他社は今後どう追従するのか気になるなぁ。開発スピード速すぎて置いていかれそう!
Super cool to see Gemini 1.5's long context window in action! 😎 Makes me wonder how it'll handle massive datasets compared to older models.
Wow, the long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Excited to see where this takes AI! 🚀
The long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Any cool examples out there yet? 🤔
昨日、私たちはAI技術における最新のブレークスルーであるGemini 1.5モデルを発表しました。この新しいバージョンは、速度と効率において大幅な改善をもたらしますが、真のゲームチェンジャーはその革新的なロングコンテキストウィンドウです。この機能により、モデルは前例のない数のトークン—単語、画像、またはビデオを構成する基本単位—を一度に処理できます。この進歩について詳しく知るため、Google DeepMindプロジェクトチームにロングコンテキストウィンドウとは何か、そしてそれが開発者の作業方法をどのように革命化できるかについて話を聞きました。
ロングコンテキストウィンドウの理解は重要です。なぜなら、それによってAIモデルはセッション全体を通じて情報を保持し、思い出すことができるからです。会話で名前が言われてから数分後にその名前を思い出そうとしたり、電話番号を忘れる前に急いで書き留めようとしたりする状況を想像してください。AIモデルも同様の課題に直面し、数回のやり取り後に詳細を「忘れる」ことがよくあります。ロングコンテキストウィンドウは、モデルがより多くの情報を「記憶」に保持できるようにすることでこの問題を解決します。
以前のGeminiモデルは最大32,000トークンを同時に処理できました。しかし、1.5 Proの早期テスト向けリリースにより、私たちはその限界を驚異的な100万トークンに押し上げました—これまでで最大規模の基盤モデルのコンテキストウィンドウです。私たちの研究はさらにその先へ進み、最大1,000万トークンのテストに成功しました。コンテキストウィンドウが大きければ大きいほど、モデルが処理できるデータ—テキスト、画像、音声、コード、またはビデオ—の多様性と範囲が広がります。
Google DeepMindの研究科学者であり、ロングコンテキストプロジェクトのリーダーの一人であるNikolay Savinovは、次のように述べています。「私たちの当初の目標は128,000トークンに到達することでしたが、もっと高みを目指すことが有益だと考え、100万トークンを提案しました。そして今、私たちの研究はその10倍を超えています。」
この飛躍を達成するためには、一連の深層学習の革新が必要でした。Pranav Shyamの初期の探求は、私たちの研究を導く重要な洞察を提供しました。Google DeepMindのエンジニアであるDenis Teplyashinは、「各ブレークスルーが次のブレークスルーを生み、新しい可能性を開きました。これらの革新が組み合わさったとき、128,000トークンから512,000トークン、そして100万トークン、最近では内部研究で1,000万トークンにスケールアップした結果に驚きました。」と説明しました。
1.5 Proの拡張された容量は、刺激的な新しいアプリケーションを開拓します。たとえば、数十ページのドキュメントを要約する代わりに、1.5 Proは数千ページのドキュメントを処理できます。以前のモデルが数千行のコードを分析できたのに対し、1.5 Proは一度に数万行のコードを処理できます。
Google DeepMindの研究科学者であるMachel Reidは、興味深いテスト結果を共有しました。「あるテストでは、コードベース全体をモデルに入力し、包括的なドキュメントを生成しました。これは驚くべきことでした。別のテストでは、1924年の映画Sherlock Jr.を45分間「視聴」した後、正確に質問に答えました。」
1.5 Proは、プロンプト内のデータにわたる推論にも優れています。Machelは、世界中で200人未満しか話さない希少言語Kalamangを例に挙げました。「モデルは単独でKalamangに翻訳することはできませんが、ロングコンテキストウィンドウにより、文法マニュアル全体と例文を含めることができました。モデルは同じ資料から学ぶ人と同等のレベルで、英語からKalamangへの翻訳を学びました。」
Gemini 1.5 Proには標準の128Kトークンのコンテキストウィンドウが付属していますが、選択された開発者や企業顧客は、AI StudioおよびVertex AIを通じてプライベートプレビューで100万トークンのコンテキストウィンドウにアクセスできます。このような大規模なコンテキストウィンドウの管理は計算負荷が高く、私たちはスケールアップする際に遅延を減らすための最適化に積極的に取り組んでいます。
今後、チームはモデルの高速化と効率化に焦点を当て、安全性を優先しています。また、ロングコンテキストウィンドウのさらなる拡張、基盤アーキテクチャの強化、新しいハードウェアの改良の活用方法も探っています。Nikolayは、「一度に1,000万トークンは、テンサープロセッシングユニットの熱限界に近づいています。限界がどこにあるかはまだわかりませんが、ハードウェアが進化するにつれてモデルはさらに多くのことができる可能性があります。」と述べました。
チームは、開発者やより広いコミュニティがこれらの新しい機能でどのような革新的なアプリケーションを生み出すのかを楽しみにしています。Machelは、「初めて100万トークンのコンテキストを見たとき、『これは何に使うんだ?』と思いました。でも今、人々の想像力が広がり、これらの新しい機能のより創造的な活用方法が生まれると信じています。」と振り返りました。
[ttpp][yyxx]

バリー・ディラー:AGIの実現が近づく中、サム・アルトマンへの信頼は重要ではない
億万長者のメディア界の巨頭であるバリー・ディラー氏は、最近の報道でそのように示唆されているにもかかわらず、OpenAIのCEOサム・アルトマン氏が信頼できない人物だとは考えていない。今週開催されたウォール・ストリート・ジャーナル紙主催の「Future of Everything」カンファレンスで講演したディラー氏は、一部の元同僚や取締役から、時折人を利用したり欺いたりする傾向があるとの非難を受けて
YouTube、政治家、政府関係者、ジャーナリストを対象にAIによるディープフェイク検出機能を拡大
火曜日、YouTubeは、ディープフェイク検出技術を、特定の政府関係者、政治家候補者、ジャーナリストを対象に拡大すると発表した。このツールはAIによって生成された肖像を識別し、パイロットプログラムの参加者は、YouTubeのポリシーに違反していると判断した無断コンテンツの削除をリクエストできるようになる。この検出システムは、先行するテスト段階を経て、昨年、YouTubeパートナープログラムに参加す
すごい!長文コンテキストの機能が実用化されたら、研究やビジネス文書の分析が一気に楽になりそう🤩。でもこれ、倫理面でどうなんだろう?膨大なデータを読み込むということは、プライバシー問題も発生しそうで少し不安…。他社は今後どう追従するのか気になるなぁ。開発スピード速すぎて置いていかれそう!
Super cool to see Gemini 1.5's long context window in action! 😎 Makes me wonder how it'll handle massive datasets compared to older models.
Wow, the long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Excited to see where this takes AI! 🚀
The long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Any cool examples out there yet? 🤔





家






