Google I/O 2024:次世代のイノベーションを発表します
Googleは、私たちがGemini時代と呼ぶものを完全に受け入れています。
詳細に入る前に、現在の状況を振り返る時間を少し取らせてください。私たちは10年以上にわたりAIにリソースを注ぎ込み、研究、製品開発、インフラストラクチャの限界を押し広げてきました。今日、それらすべてとさらに多くのことをお話しします。
私たちはまだこのAIプラットフォームの変革の始まりにいる段階であり、その可能性はクリエイター、開発者、スタートアップ、そしてその他すべての人にとって非常に大きいです。それがGemini時代のすべてであり、これらの機会を前進させることです。それでは、早速本題に入りましょう。
Gemini時代
昨年I/Oで、私たちはGeminiのビジョンを発表しました。これは、最初からネイティブにマルチモーダルであるように設計された最先端のモデルで、テキスト、画像、ビデオ、コードなどを処理できます。任意の入力を任意の出力に変換する、次世代の「I/O」に向けた大きな飛躍です。
それ以来、最初のGeminiモデルを展開し、マルチモーダル性能で新たな基準を設けました。わずか2か月後、Gemini 1.5 Proを導入し、長文のコンテキスト処理で大きな進歩を遂げました。これは本番環境で100万トークンを扱うことができ、これまでの他の大規模基盤モデルを上回っています。
私たちは、誰もがGeminiの機能を利用できるようにすることを約束しています。これらの進歩を迅速に皆様と共有しました。現在、150万人以上の開発者が、コードのデバッグから新たな洞察の獲得、AIアプリケーションの次なる波の構築まで、Geminiモデルを私たちのツール全体で使用しています。
また、Geminiの強力な機能を私たちの製品に意味のある形で統合しています。今日、Search、Photos、Workspace、Androidなどでその例をご覧いただけます。
製品の進歩
現在、20億ユーザーを抱えるすべての製品がGeminiによって駆動されています。
また、AndroidとiOSの両方で利用可能なGeminiと直接対話できるモバイルアプリなど、新しい体験も開始しました。そして、Gemini Advancedでは、最先端のモデルにアクセスできます。わずか3か月で100万人以上が試用に登録し、その勢いは増しています。
SearchでのAI Overviewsの拡大
Geminiによる最もエキサイティングな発展の1つは、Google Searchにおけるものです。
過去1年間、Search Generative Experienceを通じて数十億のクエリを処理しました。ユーザーは、Searchを新しい方法で探索し、より長く複雑な質問をしたり、写真を使って検索したり、ウェブが提供する最良の結果を得ています。

この体験をLabsを超えてテストしており、Searchの使用量が増加するだけでなく、ユーザーの満足度も高まっていることに興奮しています。
この完全に刷新された体験、AI Overviewsを、今週米国で全員に展開開始し、間もなく他の国にも展開することを発表できて興奮しています。
Geminiのおかげで、Searchの可能性の限界を押し広げており、それは私たち自身の製品内でも同様です。
Ask Photosの紹介
たとえば、約9年前に開始したGoogle Photosは、人生の最も貴重な思い出を整理するための定番となり、毎日60億以上の写真やビデオがアップロードされています。
人々はPhotosを使って自分の人生を検索するのが大好きです。Geminiを使えば、これがさらに簡単になります。
駐車場でナンバープレートを思い出せないと想像してください。以前は、キーワードでPhotosを検索し、何年分もの写真をスクロールする必要がありました。今は、Photosに聞くだけです。よく使う車を認識し、どの車があなたのものかを判断し、ナンバープレート番号を教えてくれます。
Ask Photosは、思い出をさらに深く掘り下げるのにも役立ちます。たとえば、娘のLuciaの初期のマイルストーンを思い出しているとします。Photosに「Luciaが泳ぎを覚えたのはいつ?」と聞けます。
さらに複雑な質問、たとえば「Luciaの泳ぎの進歩を見せて」とフォローアップできます。

ここでは、Geminiは単純な検索を超え、プールのラップから海洋でのシュノーケリング、泳ぎの証明書のテキストや日付まで、さまざまなコンテキストを理解します。Photosはそれらをすべてまとめ、素晴らしい思い出を再体験できるようにします。Ask Photosは今夏に展開予定で、さらに多くの機能が追加されます。
マルチモーダリティと長文コンテキストでさらなる知識の解放
Geminiのマルチモーダリティは、さまざまな形式で知識を解放するように設計されています。異なる種類の入力を理解し、接続する1つのモデルです。
このアプローチにより、質問の種類や受け取る回答が広がります。長文コンテキストはこれをさらに進め、膨大な情報を処理できます:数百ページのテキスト、数時間のオーディオ、1時間のビデオ、全体のコードリポジトリ、さらには96のCheesecake Factoryのメニューまで。
多くのメニューには、100万トークンのコンテキストウィンドウが必要で、これはGemini 1.5 Proで可能になりました。開発者はこれをかなりクールな方法で使用しています。

過去数か月間、Gemini 1.5 Proを長文コンテキストとともにプレビューで展開し、翻訳、コーディング、推論の品質を向上させました。これらのアップデートはモデルに反映されています。
改良されたGemini 1.5 Proを世界中のすべての開発者に提供開始することを発表できて興奮しています。さらに、Gemini 1.5 Proの100万コンテキストは、Gemini Advancedで消費者向けに直接アクセス可能となり、35言語をサポートします。
プライベートプレビューで200万トークンに拡大
100万トークンは新たな可能性を開きましたが、そこで止まりません。
今日、コンテキストウィンドウを200万トークンに拡大し、開発者向けにプライベートプレビューで提供します。
わずか数か月でここまで進んだのは驚くべきことです。これは無限のコンテキストという最終目標に向けたもう一つのステップです。
WorkspaceへのGemini 1.5 Proの導入
2つの主要な技術的進歩、マルチモーダリティと長文コンテキストについて議論しました。それぞれ単独でも強力ですが、組み合わせることでさらに深い能力と知能が解放されます。
これはGoogle Workspaceで明らかです。
人々はGmailでメールを検索することがよくあります。Geminiを使えば、これがさらに強力になります。たとえば、親として、子供の学校の活動を把握したいと思うでしょう。Geminiがその追跡を助けます。
Geminiに最近の学校からのメールを要約するよう依頼できます。裏では、関連するメールを特定し、PDFなどの添付ファイルも分析します。重要なポイントとアクションアイテムの要約が得られます。PTAミーティングに出席できなかった場合、録画が1時間あっても、Google Meetからのものであれば、Geminiが重要な部分をハイライトします。ボランティアの募集があり、時間があれば、Geminiが返信を下書きします。
これがあなたの生活を簡素化する方法は無数にあります。Gemini 1.5 Proは今日、Workspace Labsで利用可能です。Aparnaがさらに詳しく共有します。
NotebookLMでのオーディオ出力
テキスト出力の例を見てきましたが、マルチモーダルモデルではそれ以上のことが可能です。
ここで進歩しており、さらに多くのことが期待されます。NotebookLMのAudio Overviewsはこれを示しています。Gemini 1.5 Proを使用して、ソース素材からパーソナライズされたインタラクティブなオーディオ会話を生成します。
これがマルチモーダリティの可能性です。まもなく、入力と出力を自由に組み合わせられるようになります。これが次世代の「I/O」の意味です。しかし、さらに進むことができたらどうでしょう?
AIエージェントでさらに進む
私たちが考えるエキサイティングな機会の1つはAIエージェントです。これらは、推論、計画、記憶ができるインテリジェントなシステムです。数ステップ先を考えて、ソフトウェアやシステムを横断してタスクを遂行し、常にあなたの監督下で動作します。
まだ初期段階ですが、取り組んでいるユースケースの概要をお伝えします。
たとえば、ショッピングを考えてみましょう。靴を買うのは楽しいですが、サイズが合わない場合の返品はそうではありません。
Geminiがすべてのステップを代行してくれると想像してください:
- 受信トレイから領収書を検索...
- メールから注文番号を特定...
- 返品フォームを記入...
- UPSのピックアップをスケジュール。
これならずっと簡単ですよね?
もっと複雑なシナリオを考えてみましょう。たとえば、シカゴに引っ越したばかりだとします。GeminiとChromeが協力して、定着をサポートします—情報を整理、推論、統合します。
街を探索し、クリーニング店やドッグウォーカーなどの地元サービスを見つけたいと思うでしょう。また、多数のウェブサイトで新しい住所を更新する必要があります。
Geminiはこれらのタスクを管理し、必要に応じて追加情報を尋ね、常にあなたがコントロールできるようにします。
これが重要です—これらの体験を開発する際、プライバシー、セキュリティ、すべての人にアクセス可能であることに焦点を当てています。
これらはシンプルな例ですが、インテリジェントなシステムを構築して、先行して考え、推論し、あなたの代わりに計画することで解決を目指す問題の種類を示しています。
私たちの使命にとっての意味
マルチモーダリティ、長文コンテキスト、エージェントを備えたGeminiの力は、AIをすべての人にとって役立つものにするという最終目標に近づけます。
これが私たちの使命への最大の進歩の方法です:すべての入力を通じて世界の情報を整理し、任意の出力でアクセス可能にし、世界の情報とあなたの情報の世界を本当に役立つ方法で組み合わせることです。
新たな地平の開拓
AIの可能性を完全に実現するには、限界を押し広げる必要があります。Google DeepMindチームはこれに懸命に取り組んできました。
1.5 Proとその長文コンテキストウィンドウに多くの興奮が見られました。しかし、開発者はより高速でコスト効率の高いものを求めていました。そこで、明日、Gemini 1.5 Flashを紹介します。これはスケール向けに設計された軽量モデルで、低遅延とコストが重要なタスクに最適化されています。1.5 Flashは火曜日にAI StudioとVertex AIで利用可能になります。
さらに先を見据えて、私たちは常に日常生活で役立つユニバーサルエージェントを構築したいと考えていました。Project Astraは、マルチモーダル理解とリアルタイム会話能力を示しています。

また、VeoとImagen 3でビデオと画像生成の進歩を遂げ、責任あるAIイノベーションのための次世代オープンモデル、Gemma 2.0を導入しました。Demis Hassabisから詳細をご覧いただけます。
AI時代のインフラストラクチャ:Trilliumの紹介
最先端モデルのトレーニングには多くの計算能力が必要です。過去6年間でMLコンピュートの需要は100万倍に成長し、毎年10倍に増加しています。
Googleはこのために作られました。25年間、世界クラスの技術インフラストラクチャに投資してきました。Searchを支える最先端のハードウェアから、AIの進歩を推進するカスタムテンソル処理ユニットまで。
Geminiは、4世代目および5世代目のTPUで完全にトレーニングおよび提供されました。Anthropicを含む他の主要なAI企業も、私たちのTPUでモデルをトレーニングしています。
今日、6世代目のTPU、Trilliumを発表できて興奮しています。Trilliumはこれまでで最も高性能で効率的なTPUで、前の世代TPU v5eに比べてチップごとの計算性能が4.7倍向上しています。
Trilliumは2024年後半にクラウド顧客に提供されます。
TPUに加えて、任意のワークロードをサポートするCPUとGPUも提供しています。これには、先月発表した初のカスタムArmベースCPUであるAxionプロセッサが含まれ、業界をリードする性能とエネルギー効率を提供します。
また、NVIDIAの最先端Blackwell GPUを提供する最初のクラウドプロバイダーの1つで、2025年初頭に利用可能です。NVIDIAとの長年のパートナーシップにより、Blackwellの画期的な能力を顧客に提供できます。
チップは、パフォーマンス最適化されたハードウェア、オープンソフトウェア、柔軟な消費モデルまで、統合されたエンドツーエンドシステムの基盤です。これらがAI Hypercomputer、画期的なスーパーコンピュータアーキテクチャに結集します。
企業や開発者はこれを使って、より複雑な課題に取り組み、生のハードウェアやチップを購入するだけの場合に比べて2倍以上の効率を実現しています。AI Hypercomputerの進歩は、データセンターでの液体冷却アプローチによって一部可能になっています。
私たちは業界の最先端となる前に、ほぼ10年間これを行ってきました。現在、液体冷却システムの総展開容量はほぼ1ギガワットで成長しており、他のどの艦隊の容量の70倍近くです。
これを支えるのは、グローバルにインフラストラクチャを接続するネットワークの規模です。私たちのネットワークは、地上および海底ファイバーの合計で200万マイル以上をカバーし、次の主要クラウドプロバイダーの10倍以上の範囲です。
私たちはAIイノベーションを推進し、最先端の能力を提供するために必要な投資を続けます。

これまでで最もエキサイティングなSearchの章
私たちの最大の投資とイノベーションの領域の1つは、創業製品であるSearchです。25年前、オンラインで移動する情報の洪水をナビゲートするのを助けるためにSearchを作成しました。
各プラットフォームの変革ごとに、質問により良く答えるためのブレークスルーを提供してきました。モバイルでは、より良いコンテキスト、位置認識、リアルタイム情報を使用して、新しい種類の質問と回答を解放しました。自然言語理解とコンピュータビジョンの進歩により、声やハミングで新しいお気に入りの曲を見つけたり、散歩中に見た花の画像を使用したりするなど、新しい検索方法を可能にしました。そして今、Circle to Searchで購入したいクールな靴を検索できます。ぜひ試してみてください、いつでも返品できます!
もちろん、Gemini時代のSearchは、インフラストラクチャの強み、最新のAI能力、情報品質の高基準、そしてウェブの豊かさへの数十年の経験を組み合わせて、これを全く新しいレベルに引き上げます。その結果、あなたのために働く製品が生まれます。
Google Searchは、人間の好奇心のスケールでの生成AIです。そして、これはSearchのこれまでで最もエキサイティングな章です。Liz ReidからGemini時代のSearchについて詳しく読んでください。
よりインテリジェントなGemini体験
Geminiは単なるチャットボットではなく、複雑なタスクを処理し、あなたの代わりにアクションを取るパーソナルで役立つアシスタントとして設計されています。
Geminiとの対話は会話的で直感的であるべきです。そこで、新しいGemini体験「Live」を発表します。これにより、声を使ってGeminiと深い会話をすることができます。また、今年後半にGemini Advancedに200万トークンを導入し、ビデオや長いコードなどの超高密度ファイルをアップロードして分析できるようにします。Sissie Hsiaoが詳細を共有します。
AndroidでのGemini
世界中に数十億のAndroidユーザーがいる中、Geminiをユーザー体験にさらに深く統合することに興奮しています。新しいAIアシスタントとして、Geminiはいつでもどこでもあなたを助けます。テキスト、画像、オーディオ、音声を処理して新しい体験を解放し、デバイス上で情報をプライベートに保つGemini Nano with Multimodalityを含む最新のオンデバイスモデルをAndroidに組み込みました。Sameer SamatがAndroidのニュースをここで共有します。
AIへの責任あるアプローチ
私たちはAIの機会に大胆に、興奮を持って取り組んでいます。また、責任を持ってそれを行うことを確実にしています。Google DeepMindのAlphaGoのようなゲームのブレークスルーを活用して、モデルを改善する最先端の技術、AI支援レッドチームを開発しています。さらに、AI生成コンテンツを識別しやすくするウォーターマーキングツールSynthIDを、テキストとビデオの2つの新しいモダリティに拡張しました。James Manyikaが詳しく共有します。
共に未来を創る
これらすべては、AIをすべての人にとって役立つものにするために大胆かつ責任あるアプローチを取る中で、重要な進歩を示しています。
私たちは長い間AIファーストのアプローチを取ってきました。数十年にわたる研究リーダーシップは、私たちと業界全体のAI進歩を支える現代のブレークスルーの多くを開拓しました。その上に、私たちは以下を持っています:
- AI時代のために構築された世界をリードするインフラストラクチャ
- Geminiによって強化された最先端のSearchイノベーション
- 5億ユーザーを抱える15の製品を含む、驚異的なスケールで役立つ製品
- パートナー、顧客、クリエイター、そして皆さんが未来を発明できるプラットフォーム
この進歩は、素晴らしい開発者コミュニティがあってこそ可能です。あなたたちが毎日構築する体験とアプリケーションを通じてそれを実現しています。Shorelineにいる皆さんと、世界中で見ている何百万人もの人々に、未来の可能性とそれを共に創ることへの乾杯です。

Googleからのさらなるストーリーをあなたの受信トレイで受け取る。
メールアドレスあなたの情報はGoogleのプライバシーポリシーに従って使用されます。
購読完了。あと一歩です。
受信トレイを確認して購読を確定してください。
あなたはすでにニュースレターに登録済みです。
別のメールアドレスで購読することもできます。
関連記事
WordPress.comでは、AIエージェントによる投稿の作成や公開が可能になりました。その他にもさまざまな機能が追加されています。
人気のウェブホスティング・パブリッシングプラットフォームであるWordPress.comが、AIエージェントの導入に乗り出した。この動きは、ウェブのあり方を一変させる可能性がある。同社は金曜日、AIエージェントが顧客のウェブサイト上でコンテンツの下書き作成、編集、公開を行うほか、コメントの管理、メタデータの更新・修正、タグやカテゴリを用いたコンテンツの整理も可能になると発表した。これらすべての操作
カカオ・モビリティ、物理AIに向けたレベル4自動運転のロードマップを提示
カカオ・モビリティは、フィジカルAI戦略の一環として、レベル4の自動運転技術を自社開発する計画だ。ソウルCOEXで開催された「2026ワールドITショー」のカンファレンスにおいて、カカオモビリティのフィジカルAI部門長兼副社長であるキム・ジンギュ氏がロードマップを発表した。同氏の講演は、フィジカルAI時代におけるモビリティプラットフォームを軸とした自動運転サービスに焦点を当てたものだった。聯合
バリー・ディラー:AGIの実現が近づく中、サム・アルトマンへの信頼は重要ではない
億万長者のメディア界の巨頭であるバリー・ディラー氏は、最近の報道でそのように示唆されているにもかかわらず、OpenAIのCEOサム・アルトマン氏が信頼できない人物だとは考えていない。今週開催されたウォール・ストリート・ジャーナル紙主催の「Future of Everything」カンファレンスで講演したディラー氏は、一部の元同僚や取締役から、時折人を利用したり欺いたりする傾向があるとの非難を受けて
関連特集おすすめ
コメント (32)
0/500
GoogleがGemini時代を完全に牽引してるね。ただ、競合も同じようなAIを開発してるから、本当に差別化できるのはどこかな?🤔 スーパーAIの倫理面やプライバシー問題はどう解決するのか、少し不安になる。それでも、こうした進化は本当にワクワクするよ!🚀
Até onde esse hype do 'Era Gemini' vai realmente chegar? Já ouvi discursos assim antes… Será que vai ser mais uma série de funcionalidades legais que só uns poucos vão usar, ou realmente vai mudar a forma como interagimos com a tecnologia? 🤔
Гугл опять замахивается на всё сразу 🤦♂️ Только что был 'Тензорный' век, а теперь уже 'эра Gemini'. Ну хоть что-то интересное покажут по поиску на этой I/O? А то последнее время воняет шпаргалками из ИИ в результатах поиска, а не настоящими сайтами. Пойдёт он уже в архив или нет?
Google's AI push at I/O 2024 sounds like a sci-fi movie! Gemini era? I'm intrigued but also wondering if my phone will soon outsmart me. 😅 Exciting stuff!
Googleは、私たちがGemini時代と呼ぶものを完全に受け入れています。
詳細に入る前に、現在の状況を振り返る時間を少し取らせてください。私たちは10年以上にわたりAIにリソースを注ぎ込み、研究、製品開発、インフラストラクチャの限界を押し広げてきました。今日、それらすべてとさらに多くのことをお話しします。
私たちはまだこのAIプラットフォームの変革の始まりにいる段階であり、その可能性はクリエイター、開発者、スタートアップ、そしてその他すべての人にとって非常に大きいです。それがGemini時代のすべてであり、これらの機会を前進させることです。それでは、早速本題に入りましょう。
Gemini時代
昨年I/Oで、私たちはGeminiのビジョンを発表しました。これは、最初からネイティブにマルチモーダルであるように設計された最先端のモデルで、テキスト、画像、ビデオ、コードなどを処理できます。任意の入力を任意の出力に変換する、次世代の「I/O」に向けた大きな飛躍です。
それ以来、最初のGeminiモデルを展開し、マルチモーダル性能で新たな基準を設けました。わずか2か月後、Gemini 1.5 Proを導入し、長文のコンテキスト処理で大きな進歩を遂げました。これは本番環境で100万トークンを扱うことができ、これまでの他の大規模基盤モデルを上回っています。
私たちは、誰もがGeminiの機能を利用できるようにすることを約束しています。これらの進歩を迅速に皆様と共有しました。現在、150万人以上の開発者が、コードのデバッグから新たな洞察の獲得、AIアプリケーションの次なる波の構築まで、Geminiモデルを私たちのツール全体で使用しています。
また、Geminiの強力な機能を私たちの製品に意味のある形で統合しています。今日、Search、Photos、Workspace、Androidなどでその例をご覧いただけます。
製品の進歩
現在、20億ユーザーを抱えるすべての製品がGeminiによって駆動されています。
また、AndroidとiOSの両方で利用可能なGeminiと直接対話できるモバイルアプリなど、新しい体験も開始しました。そして、Gemini Advancedでは、最先端のモデルにアクセスできます。わずか3か月で100万人以上が試用に登録し、その勢いは増しています。
SearchでのAI Overviewsの拡大
Geminiによる最もエキサイティングな発展の1つは、Google Searchにおけるものです。
過去1年間、Search Generative Experienceを通じて数十億のクエリを処理しました。ユーザーは、Searchを新しい方法で探索し、より長く複雑な質問をしたり、写真を使って検索したり、ウェブが提供する最良の結果を得ています。

この体験をLabsを超えてテストしており、Searchの使用量が増加するだけでなく、ユーザーの満足度も高まっていることに興奮しています。
この完全に刷新された体験、AI Overviewsを、今週米国で全員に展開開始し、間もなく他の国にも展開することを発表できて興奮しています。
Geminiのおかげで、Searchの可能性の限界を押し広げており、それは私たち自身の製品内でも同様です。
Ask Photosの紹介
たとえば、約9年前に開始したGoogle Photosは、人生の最も貴重な思い出を整理するための定番となり、毎日60億以上の写真やビデオがアップロードされています。
人々はPhotosを使って自分の人生を検索するのが大好きです。Geminiを使えば、これがさらに簡単になります。
駐車場でナンバープレートを思い出せないと想像してください。以前は、キーワードでPhotosを検索し、何年分もの写真をスクロールする必要がありました。今は、Photosに聞くだけです。よく使う車を認識し、どの車があなたのものかを判断し、ナンバープレート番号を教えてくれます。
Ask Photosは、思い出をさらに深く掘り下げるのにも役立ちます。たとえば、娘のLuciaの初期のマイルストーンを思い出しているとします。Photosに「Luciaが泳ぎを覚えたのはいつ?」と聞けます。
さらに複雑な質問、たとえば「Luciaの泳ぎの進歩を見せて」とフォローアップできます。

ここでは、Geminiは単純な検索を超え、プールのラップから海洋でのシュノーケリング、泳ぎの証明書のテキストや日付まで、さまざまなコンテキストを理解します。Photosはそれらをすべてまとめ、素晴らしい思い出を再体験できるようにします。Ask Photosは今夏に展開予定で、さらに多くの機能が追加されます。
マルチモーダリティと長文コンテキストでさらなる知識の解放
Geminiのマルチモーダリティは、さまざまな形式で知識を解放するように設計されています。異なる種類の入力を理解し、接続する1つのモデルです。
このアプローチにより、質問の種類や受け取る回答が広がります。長文コンテキストはこれをさらに進め、膨大な情報を処理できます:数百ページのテキスト、数時間のオーディオ、1時間のビデオ、全体のコードリポジトリ、さらには96のCheesecake Factoryのメニューまで。
多くのメニューには、100万トークンのコンテキストウィンドウが必要で、これはGemini 1.5 Proで可能になりました。開発者はこれをかなりクールな方法で使用しています。

過去数か月間、Gemini 1.5 Proを長文コンテキストとともにプレビューで展開し、翻訳、コーディング、推論の品質を向上させました。これらのアップデートはモデルに反映されています。
改良されたGemini 1.5 Proを世界中のすべての開発者に提供開始することを発表できて興奮しています。さらに、Gemini 1.5 Proの100万コンテキストは、Gemini Advancedで消費者向けに直接アクセス可能となり、35言語をサポートします。
プライベートプレビューで200万トークンに拡大
100万トークンは新たな可能性を開きましたが、そこで止まりません。
今日、コンテキストウィンドウを200万トークンに拡大し、開発者向けにプライベートプレビューで提供します。
わずか数か月でここまで進んだのは驚くべきことです。これは無限のコンテキストという最終目標に向けたもう一つのステップです。
WorkspaceへのGemini 1.5 Proの導入
2つの主要な技術的進歩、マルチモーダリティと長文コンテキストについて議論しました。それぞれ単独でも強力ですが、組み合わせることでさらに深い能力と知能が解放されます。
これはGoogle Workspaceで明らかです。
人々はGmailでメールを検索することがよくあります。Geminiを使えば、これがさらに強力になります。たとえば、親として、子供の学校の活動を把握したいと思うでしょう。Geminiがその追跡を助けます。
Geminiに最近の学校からのメールを要約するよう依頼できます。裏では、関連するメールを特定し、PDFなどの添付ファイルも分析します。重要なポイントとアクションアイテムの要約が得られます。PTAミーティングに出席できなかった場合、録画が1時間あっても、Google Meetからのものであれば、Geminiが重要な部分をハイライトします。ボランティアの募集があり、時間があれば、Geminiが返信を下書きします。
これがあなたの生活を簡素化する方法は無数にあります。Gemini 1.5 Proは今日、Workspace Labsで利用可能です。Aparnaがさらに詳しく共有します。
NotebookLMでのオーディオ出力
テキスト出力の例を見てきましたが、マルチモーダルモデルではそれ以上のことが可能です。
ここで進歩しており、さらに多くのことが期待されます。NotebookLMのAudio Overviewsはこれを示しています。Gemini 1.5 Proを使用して、ソース素材からパーソナライズされたインタラクティブなオーディオ会話を生成します。
これがマルチモーダリティの可能性です。まもなく、入力と出力を自由に組み合わせられるようになります。これが次世代の「I/O」の意味です。しかし、さらに進むことができたらどうでしょう?
AIエージェントでさらに進む
私たちが考えるエキサイティングな機会の1つはAIエージェントです。これらは、推論、計画、記憶ができるインテリジェントなシステムです。数ステップ先を考えて、ソフトウェアやシステムを横断してタスクを遂行し、常にあなたの監督下で動作します。
まだ初期段階ですが、取り組んでいるユースケースの概要をお伝えします。
たとえば、ショッピングを考えてみましょう。靴を買うのは楽しいですが、サイズが合わない場合の返品はそうではありません。
Geminiがすべてのステップを代行してくれると想像してください:
- 受信トレイから領収書を検索...
- メールから注文番号を特定...
- 返品フォームを記入...
- UPSのピックアップをスケジュール。
これならずっと簡単ですよね?
もっと複雑なシナリオを考えてみましょう。たとえば、シカゴに引っ越したばかりだとします。GeminiとChromeが協力して、定着をサポートします—情報を整理、推論、統合します。
街を探索し、クリーニング店やドッグウォーカーなどの地元サービスを見つけたいと思うでしょう。また、多数のウェブサイトで新しい住所を更新する必要があります。
Geminiはこれらのタスクを管理し、必要に応じて追加情報を尋ね、常にあなたがコントロールできるようにします。
これが重要です—これらの体験を開発する際、プライバシー、セキュリティ、すべての人にアクセス可能であることに焦点を当てています。
これらはシンプルな例ですが、インテリジェントなシステムを構築して、先行して考え、推論し、あなたの代わりに計画することで解決を目指す問題の種類を示しています。
私たちの使命にとっての意味
マルチモーダリティ、長文コンテキスト、エージェントを備えたGeminiの力は、AIをすべての人にとって役立つものにするという最終目標に近づけます。
これが私たちの使命への最大の進歩の方法です:すべての入力を通じて世界の情報を整理し、任意の出力でアクセス可能にし、世界の情報とあなたの情報の世界を本当に役立つ方法で組み合わせることです。
新たな地平の開拓
AIの可能性を完全に実現するには、限界を押し広げる必要があります。Google DeepMindチームはこれに懸命に取り組んできました。
1.5 Proとその長文コンテキストウィンドウに多くの興奮が見られました。しかし、開発者はより高速でコスト効率の高いものを求めていました。そこで、明日、Gemini 1.5 Flashを紹介します。これはスケール向けに設計された軽量モデルで、低遅延とコストが重要なタスクに最適化されています。1.5 Flashは火曜日にAI StudioとVertex AIで利用可能になります。
さらに先を見据えて、私たちは常に日常生活で役立つユニバーサルエージェントを構築したいと考えていました。Project Astraは、マルチモーダル理解とリアルタイム会話能力を示しています。

また、VeoとImagen 3でビデオと画像生成の進歩を遂げ、責任あるAIイノベーションのための次世代オープンモデル、Gemma 2.0を導入しました。Demis Hassabisから詳細をご覧いただけます。
AI時代のインフラストラクチャ:Trilliumの紹介
最先端モデルのトレーニングには多くの計算能力が必要です。過去6年間でMLコンピュートの需要は100万倍に成長し、毎年10倍に増加しています。
Googleはこのために作られました。25年間、世界クラスの技術インフラストラクチャに投資してきました。Searchを支える最先端のハードウェアから、AIの進歩を推進するカスタムテンソル処理ユニットまで。
Geminiは、4世代目および5世代目のTPUで完全にトレーニングおよび提供されました。Anthropicを含む他の主要なAI企業も、私たちのTPUでモデルをトレーニングしています。
今日、6世代目のTPU、Trilliumを発表できて興奮しています。Trilliumはこれまでで最も高性能で効率的なTPUで、前の世代TPU v5eに比べてチップごとの計算性能が4.7倍向上しています。
Trilliumは2024年後半にクラウド顧客に提供されます。
TPUに加えて、任意のワークロードをサポートするCPUとGPUも提供しています。これには、先月発表した初のカスタムArmベースCPUであるAxionプロセッサが含まれ、業界をリードする性能とエネルギー効率を提供します。
また、NVIDIAの最先端Blackwell GPUを提供する最初のクラウドプロバイダーの1つで、2025年初頭に利用可能です。NVIDIAとの長年のパートナーシップにより、Blackwellの画期的な能力を顧客に提供できます。
チップは、パフォーマンス最適化されたハードウェア、オープンソフトウェア、柔軟な消費モデルまで、統合されたエンドツーエンドシステムの基盤です。これらがAI Hypercomputer、画期的なスーパーコンピュータアーキテクチャに結集します。
企業や開発者はこれを使って、より複雑な課題に取り組み、生のハードウェアやチップを購入するだけの場合に比べて2倍以上の効率を実現しています。AI Hypercomputerの進歩は、データセンターでの液体冷却アプローチによって一部可能になっています。
私たちは業界の最先端となる前に、ほぼ10年間これを行ってきました。現在、液体冷却システムの総展開容量はほぼ1ギガワットで成長しており、他のどの艦隊の容量の70倍近くです。
これを支えるのは、グローバルにインフラストラクチャを接続するネットワークの規模です。私たちのネットワークは、地上および海底ファイバーの合計で200万マイル以上をカバーし、次の主要クラウドプロバイダーの10倍以上の範囲です。
私たちはAIイノベーションを推進し、最先端の能力を提供するために必要な投資を続けます。

これまでで最もエキサイティングなSearchの章
私たちの最大の投資とイノベーションの領域の1つは、創業製品であるSearchです。25年前、オンラインで移動する情報の洪水をナビゲートするのを助けるためにSearchを作成しました。
各プラットフォームの変革ごとに、質問により良く答えるためのブレークスルーを提供してきました。モバイルでは、より良いコンテキスト、位置認識、リアルタイム情報を使用して、新しい種類の質問と回答を解放しました。自然言語理解とコンピュータビジョンの進歩により、声やハミングで新しいお気に入りの曲を見つけたり、散歩中に見た花の画像を使用したりするなど、新しい検索方法を可能にしました。そして今、Circle to Searchで購入したいクールな靴を検索できます。ぜひ試してみてください、いつでも返品できます!
もちろん、Gemini時代のSearchは、インフラストラクチャの強み、最新のAI能力、情報品質の高基準、そしてウェブの豊かさへの数十年の経験を組み合わせて、これを全く新しいレベルに引き上げます。その結果、あなたのために働く製品が生まれます。
Google Searchは、人間の好奇心のスケールでの生成AIです。そして、これはSearchのこれまでで最もエキサイティングな章です。Liz ReidからGemini時代のSearchについて詳しく読んでください。
よりインテリジェントなGemini体験
Geminiは単なるチャットボットではなく、複雑なタスクを処理し、あなたの代わりにアクションを取るパーソナルで役立つアシスタントとして設計されています。
Geminiとの対話は会話的で直感的であるべきです。そこで、新しいGemini体験「Live」を発表します。これにより、声を使ってGeminiと深い会話をすることができます。また、今年後半にGemini Advancedに200万トークンを導入し、ビデオや長いコードなどの超高密度ファイルをアップロードして分析できるようにします。Sissie Hsiaoが詳細を共有します。
AndroidでのGemini
世界中に数十億のAndroidユーザーがいる中、Geminiをユーザー体験にさらに深く統合することに興奮しています。新しいAIアシスタントとして、Geminiはいつでもどこでもあなたを助けます。テキスト、画像、オーディオ、音声を処理して新しい体験を解放し、デバイス上で情報をプライベートに保つGemini Nano with Multimodalityを含む最新のオンデバイスモデルをAndroidに組み込みました。Sameer SamatがAndroidのニュースをここで共有します。
AIへの責任あるアプローチ
私たちはAIの機会に大胆に、興奮を持って取り組んでいます。また、責任を持ってそれを行うことを確実にしています。Google DeepMindのAlphaGoのようなゲームのブレークスルーを活用して、モデルを改善する最先端の技術、AI支援レッドチームを開発しています。さらに、AI生成コンテンツを識別しやすくするウォーターマーキングツールSynthIDを、テキストとビデオの2つの新しいモダリティに拡張しました。James Manyikaが詳しく共有します。
共に未来を創る
これらすべては、AIをすべての人にとって役立つものにするために大胆かつ責任あるアプローチを取る中で、重要な進歩を示しています。
私たちは長い間AIファーストのアプローチを取ってきました。数十年にわたる研究リーダーシップは、私たちと業界全体のAI進歩を支える現代のブレークスルーの多くを開拓しました。その上に、私たちは以下を持っています:
- AI時代のために構築された世界をリードするインフラストラクチャ
- Geminiによって強化された最先端のSearchイノベーション
- 5億ユーザーを抱える15の製品を含む、驚異的なスケールで役立つ製品
- パートナー、顧客、クリエイター、そして皆さんが未来を発明できるプラットフォーム
この進歩は、素晴らしい開発者コミュニティがあってこそ可能です。あなたたちが毎日構築する体験とアプリケーションを通じてそれを実現しています。Shorelineにいる皆さんと、世界中で見ている何百万人もの人々に、未来の可能性とそれを共に創ることへの乾杯です。

Googleからのさらなるストーリーをあなたの受信トレイで受け取る。
メールアドレスあなたの情報はGoogleのプライバシーポリシーに従って使用されます。
購読完了。あと一歩です。
受信トレイを確認して購読を確定してください。
あなたはすでにニュースレターに登録済みです。
別のメールアドレスで購読することもできます。
WordPress.comでは、AIエージェントによる投稿の作成や公開が可能になりました。その他にもさまざまな機能が追加されています。
人気のウェブホスティング・パブリッシングプラットフォームであるWordPress.comが、AIエージェントの導入に乗り出した。この動きは、ウェブのあり方を一変させる可能性がある。同社は金曜日、AIエージェントが顧客のウェブサイト上でコンテンツの下書き作成、編集、公開を行うほか、コメントの管理、メタデータの更新・修正、タグやカテゴリを用いたコンテンツの整理も可能になると発表した。これらすべての操作
バリー・ディラー:AGIの実現が近づく中、サム・アルトマンへの信頼は重要ではない
億万長者のメディア界の巨頭であるバリー・ディラー氏は、最近の報道でそのように示唆されているにもかかわらず、OpenAIのCEOサム・アルトマン氏が信頼できない人物だとは考えていない。今週開催されたウォール・ストリート・ジャーナル紙主催の「Future of Everything」カンファレンスで講演したディラー氏は、一部の元同僚や取締役から、時折人を利用したり欺いたりする傾向があるとの非難を受けて
GoogleがGemini時代を完全に牽引してるね。ただ、競合も同じようなAIを開発してるから、本当に差別化できるのはどこかな?🤔 スーパーAIの倫理面やプライバシー問題はどう解決するのか、少し不安になる。それでも、こうした進化は本当にワクワクするよ!🚀
Até onde esse hype do 'Era Gemini' vai realmente chegar? Já ouvi discursos assim antes… Será que vai ser mais uma série de funcionalidades legais que só uns poucos vão usar, ou realmente vai mudar a forma como interagimos com a tecnologia? 🤔
Гугл опять замахивается на всё сразу 🤦♂️ Только что был 'Тензорный' век, а теперь уже 'эра Gemini'. Ну хоть что-то интересное покажут по поиску на этой I/O? А то последнее время воняет шпаргалками из ИИ в результатах поиска, а не настоящими сайтами. Пойдёт он уже в архив или нет?
Google's AI push at I/O 2024 sounds like a sci-fi movie! Gemini era? I'm intrigued but also wondering if my phone will soon outsmart me. 😅 Exciting stuff!





家






