Geminiは、強化されたモデル、拡張コンテキスト、AIエージェントを発表します
昨年12月に、初のネイティブマルチモーダルモデルであるGemini 1.0を、Ultra、Pro、Nanoの3つのサイズでリリースしました。それから数ヶ月後、1.5 Proを導入し、強化された性能と画期的な100万トークンの長コンテキストウィンドウを備えました。
開発者や企業顧客は、1.5 Proを非常に素晴らしい方法で活用しており、その長コンテキストウィンドウ、堅牢なマルチモーダル推論、そして全体的に優れた性能を高く評価しています。
ユーザーからのフィードバックでは、遅延とコストが低いモデルが求められていることが強調され、さらなる進化を促すきっかけとなりました。そのため、今日、Gemini 1.5 Flashを紹介します。このモデルは1.5 Proよりも軽量で、迅速かつ効率的に設計されており、スケールアップに最適です。
1.5 Proと1.5 Flashは現在、パブリックプレビュー中で、100万トークンのコンテキストウィンドウを備え、Google AI StudioおよびVertex AIを通じて利用可能です。さらに必要な方のために、1.5 ProはAPIを使用する開発者やGoogle Cloudの顧客向けに、ウェイトリストを通じて200万トークンのコンテキストウィンドウを提供します。
それだけではありません。Geminiファミリー全体にわたるアップデートを展開し、次世代のオープンなモデルであるGemma 2を公開し、Project AstraによるAIアシスタントの未来に進展を遂げています。
主要な基盤モデルのコンテキスト長とGemini 1.5の200万トークンの能力を比較
Geminiモデルファミリーのアップデート
新1.5 Flash、速度と効率に最適化
1.5 Flashを紹介します。これはGeminiファミリーの最新かつ最速のメンバーであり、当社のAPIを通じて提供されます。高頻度で大量のタスク向けにカスタマイズされており、コスト効率の高いスケーラビリティを提供しつつ、画期的な長コンテキストウィンドウを維持します。
1.5 Proよりも軽量ですが、1.5 Flashは決して劣っていません。膨大なデータセットにわたるマルチモーダル推論に優れ、そのサイズに対して印象的な品質を提供します。
新しいGemini 1.5 Flashモデルは、速度と効率に最適化され、マルチモーダル推論に非常に優れ、画期的な長コンテキストウィンドウを備えています。
1.5 Flashは、要約、チャットアプリケーション、画像やビデオのキャプション作成などのタスクで輝きます。長編ドキュメントや表からのデータ抽出にも優れています。この多様性は、1.5 Proから「蒸留」によってトレーニングされ、大きなモデルの核となる知識とスキルが、より効率的で小さなモデルに受け継がれた結果です。
1.5 Flashの詳細については、更新されたGemini 1.5技術レポート、Gemini技術ページを参照し、その利用可能性と価格について学んでください。
1.5 Proの大幅な改善
過去数ヶ月間、幅広いタスクでトップパフォーマーである1.5 Proを大幅に強化してきました。
コンテキストウィンドウを200万トークンに拡張し、コード生成、論理的推論、計画、複数ターン会話、オーディオや画像の理解における能力を向上させました。これらの強化は、データとアルゴリズムの進歩に裏打ちされ、公開および内部ベンチマークで顕著な改善を示しています。
1.5 Proは、役割、フォーマット、スタイルといった製品レベルの動作を定義する、ますます複雑で微妙な指示を処理できるようになりました。特定のユースケースに対するモデルの応答制御を改良し、チャットエージェントのペルソナのカスタマイズや複数の関数呼び出しによるワークフローの自動化などが可能です。ユーザーはシステム指示を通じてモデルの動作を操縦できます。
また、Gemini APIおよびGoogle AI Studioにオーディオ理解を追加し、1.5 ProがGoogle AI Studioにアップロードされたビデオの画像とオーディオの両方を処理できるようにしました。1.5 ProをGemini AdvancedやWorkspaceアプリなどのGoogle製品に統合しています。
1.5 Proの詳細については、更新されたGemini 1.5技術レポートおよびGemini技術ページをご覧ください。
Gemini Nanoがマルチモーダル入力を理解
Gemini Nanoは、テキストのみの入力から進化し、画像を含むようになりました。Pixelから始まり、マルチモーダル性を備えたGemini Nanoを使用するアプリは、テキスト、ビジュアル、サウンド、音声言語を通じて、より人間らしい方法で世界を解釈できるようになります。
AndroidでのGemini 1.0 Nanoの詳細をご覧ください。
次世代のオープンなモデル
今日、Geminiモデルと同じ研究と技術に基づいて構築されたオープンなモデルファミリーであるGemmaもアップデートしています。
責任あるAIイノベーションのための次世代オープンなモデル、Gemma 2をリリースします。Gemma 2は、優れた性能と効率のための新しいアーキテクチャを備え、新しいサイズで提供されます。
Gemmaファミリーは、PaLI-3にインスパイアされた初のビジョン言語モデルであるPaliGemmaとともに成長しています。また、モデル応答品質を評価するためのLLM Comparatorを備えたResponsible Generative AI Toolkitもアップグレードしました。
詳細については、Developerブログをご覧ください。
ユニバーサルAIエージェントの開発の進展
Google DeepMindでは、責任あるAIを構築し、人類に利益をもたらすことを使命としています。私たちは常に、日常生活を支援できるユニバーサルAIエージェントの作成を目指してきました。そのため、Project Astra(高度な視覚と会話対応エージェント)によるAIアシスタントの未来に関する進捗を共有します。
AIエージェントが真に役立つためには、人間のように世界を理解し反応し、見たものや聞いたものを記憶してコンテキストを把握し、それに応じて行動する必要があります。また、プロアクティブで、学習可能で、パーソナルであり、自然でラグのない会話を可能にする必要があります。
マルチモーダル情報の処理で大きな進歩を遂げましたが、会話応答時間を達成することは難しいエンジニアリング課題です。長年にわたり、モデルが知覚し、推論し、会話する方法を改良し、対話がより自然に感じられるようにしてきました。
Geminiを基盤に、ビデオフレームを継続的にエンコードし、ビデオと音声入力をイベントのタイムラインに統合し、このデータを迅速に呼び出せるようにキャッシュすることで、情報をより速く処理するプロトタイプエージェントを開発しました。
トップレベルの音声モデルを使用することで、エージェントの音声も改善し、より幅広いイントネーションを提供します。彼らは置かれたコンテキストをよりよく理解し、会話で迅速に応答できます。
この技術により、誰もが電話やメガネを通じて専門のAIアシスタントを持つ未来を想像するのは簡単です。これらの機能の一部は、今年後半にGeminiアプリやウェブ体験などのGoogle製品に導入されます。
継続的な探求
Geminiモデルファミリーで大きな進歩を遂げましたが、さらに限界を押し広げることに取り組んでいます。絶え間ないイノベーションを通じて、新しいフロンティアを探求し、Geminiのエキサイティングな新しいユースケースを解放しています。
Geminiとその能力について詳しく知りたい場合は、リソースをご覧ください。




Googleからのさらなるストーリーをあなたの受信トレイで。Googleからのさらなるストーリーをあなたの受信トレイで。
メールアドレス あなたの情報はGoogleのプライバシーポリシーに従って使用されます。
購読完了。あと一歩です。
受信トレイを確認して購読を確定してください。
あなたはすでにニュースレターに登録されています。
別のメールアドレスでも購読できます。
関連記事
"ドットAIコンパニオンアプリが閉鎖を発表、パーソナライズドサービスを中止"
個人的な友人や親友として機能するように設計されたAIコンパニオン・アプリケーションであるDotが、金曜日の開発者からの発表によると、運営を終了する。Dotを開発したスタートアップのNew Computer社は、10月5日までサービスを提供し、ユーザーが個人データをエクスポートできるようにするとウェブサイトで述べている。このアプリは、共同設立者であるサム・ホイットモアと元アップルのデザイン・スペシャ
Anthropic、AIが作成した書籍の著作権侵害をめぐる訴訟を解決
Anthropic社は、米国の著作者との重要な著作権紛争で解決に達し、高額になる可能性のある裁判を回避する集団訴訟の和解案に合意した。今週火曜日に裁判所文書に提出されたこの合意は、AI企業が海賊版の文学作品を使ってクロードモデルを訓練したという申し立てに起因する。和解の詳細は非公開だが、この訴訟は作家のアンドレア・バーツ、チャールズ・グレイバー、カーク・ウォレス・ジョンソンの主張に端を発している。
Figma、AIを搭載したアプリビルダー・ツールを全ユーザーに公開
今年初めに発表された革新的なプロンプト・トゥ・アプリ開発プラットフォームであるFigma Makeが、正式にベータ版を終了し、全ユーザーにロールアウトしました。この画期的なツールは、グーグルのジェミニ・コード・アシストやマイクロソフトのギットハブ・コパイロットのようなAIを搭載したコーディング・アシスタントの仲間入りをし、クリエイターが従来のプログラミングの専門知識がなくても、自然言語の記述を機能
コメント (25)
0/200
LucasWalker
2025年4月19日 6:37:58 JST
ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀
0
FrankSmith
2025年4月16日 9:37:56 JST
젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓
0
JamesMiller
2025年4月16日 2:53:33 JST
O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓
0
MarkRoberts
2025年4月15日 10:25:31 JST
El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.
0
BillyGarcia
2025年4月15日 4:20:08 JST
O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀
0
RogerRoberts
2025年4月15日 2:06:25 JST
¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓
0
昨年12月に、初のネイティブマルチモーダルモデルであるGemini 1.0を、Ultra、Pro、Nanoの3つのサイズでリリースしました。それから数ヶ月後、1.5 Proを導入し、強化された性能と画期的な100万トークンの長コンテキストウィンドウを備えました。
開発者や企業顧客は、1.5 Proを非常に素晴らしい方法で活用しており、その長コンテキストウィンドウ、堅牢なマルチモーダル推論、そして全体的に優れた性能を高く評価しています。
ユーザーからのフィードバックでは、遅延とコストが低いモデルが求められていることが強調され、さらなる進化を促すきっかけとなりました。そのため、今日、Gemini 1.5 Flashを紹介します。このモデルは1.5 Proよりも軽量で、迅速かつ効率的に設計されており、スケールアップに最適です。
1.5 Proと1.5 Flashは現在、パブリックプレビュー中で、100万トークンのコンテキストウィンドウを備え、Google AI StudioおよびVertex AIを通じて利用可能です。さらに必要な方のために、1.5 ProはAPIを使用する開発者やGoogle Cloudの顧客向けに、ウェイトリストを通じて200万トークンのコンテキストウィンドウを提供します。
それだけではありません。Geminiファミリー全体にわたるアップデートを展開し、次世代のオープンなモデルであるGemma 2を公開し、Project AstraによるAIアシスタントの未来に進展を遂げています。
Geminiモデルファミリーのアップデート
新1.5 Flash、速度と効率に最適化
1.5 Flashを紹介します。これはGeminiファミリーの最新かつ最速のメンバーであり、当社のAPIを通じて提供されます。高頻度で大量のタスク向けにカスタマイズされており、コスト効率の高いスケーラビリティを提供しつつ、画期的な長コンテキストウィンドウを維持します。
1.5 Proよりも軽量ですが、1.5 Flashは決して劣っていません。膨大なデータセットにわたるマルチモーダル推論に優れ、そのサイズに対して印象的な品質を提供します。
1.5 Flashは、要約、チャットアプリケーション、画像やビデオのキャプション作成などのタスクで輝きます。長編ドキュメントや表からのデータ抽出にも優れています。この多様性は、1.5 Proから「蒸留」によってトレーニングされ、大きなモデルの核となる知識とスキルが、より効率的で小さなモデルに受け継がれた結果です。
1.5 Flashの詳細については、更新されたGemini 1.5技術レポート、Gemini技術ページを参照し、その利用可能性と価格について学んでください。
1.5 Proの大幅な改善
過去数ヶ月間、幅広いタスクでトップパフォーマーである1.5 Proを大幅に強化してきました。
コンテキストウィンドウを200万トークンに拡張し、コード生成、論理的推論、計画、複数ターン会話、オーディオや画像の理解における能力を向上させました。これらの強化は、データとアルゴリズムの進歩に裏打ちされ、公開および内部ベンチマークで顕著な改善を示しています。
1.5 Proは、役割、フォーマット、スタイルといった製品レベルの動作を定義する、ますます複雑で微妙な指示を処理できるようになりました。特定のユースケースに対するモデルの応答制御を改良し、チャットエージェントのペルソナのカスタマイズや複数の関数呼び出しによるワークフローの自動化などが可能です。ユーザーはシステム指示を通じてモデルの動作を操縦できます。
また、Gemini APIおよびGoogle AI Studioにオーディオ理解を追加し、1.5 ProがGoogle AI Studioにアップロードされたビデオの画像とオーディオの両方を処理できるようにしました。1.5 ProをGemini AdvancedやWorkspaceアプリなどのGoogle製品に統合しています。
1.5 Proの詳細については、更新されたGemini 1.5技術レポートおよびGemini技術ページをご覧ください。
Gemini Nanoがマルチモーダル入力を理解
Gemini Nanoは、テキストのみの入力から進化し、画像を含むようになりました。Pixelから始まり、マルチモーダル性を備えたGemini Nanoを使用するアプリは、テキスト、ビジュアル、サウンド、音声言語を通じて、より人間らしい方法で世界を解釈できるようになります。
AndroidでのGemini 1.0 Nanoの詳細をご覧ください。
次世代のオープンなモデル
今日、Geminiモデルと同じ研究と技術に基づいて構築されたオープンなモデルファミリーであるGemmaもアップデートしています。
責任あるAIイノベーションのための次世代オープンなモデル、Gemma 2をリリースします。Gemma 2は、優れた性能と効率のための新しいアーキテクチャを備え、新しいサイズで提供されます。
Gemmaファミリーは、PaLI-3にインスパイアされた初のビジョン言語モデルであるPaliGemmaとともに成長しています。また、モデル応答品質を評価するためのLLM Comparatorを備えたResponsible Generative AI Toolkitもアップグレードしました。
詳細については、Developerブログをご覧ください。
ユニバーサルAIエージェントの開発の進展
Google DeepMindでは、責任あるAIを構築し、人類に利益をもたらすことを使命としています。私たちは常に、日常生活を支援できるユニバーサルAIエージェントの作成を目指してきました。そのため、Project Astra(高度な視覚と会話対応エージェント)によるAIアシスタントの未来に関する進捗を共有します。
AIエージェントが真に役立つためには、人間のように世界を理解し反応し、見たものや聞いたものを記憶してコンテキストを把握し、それに応じて行動する必要があります。また、プロアクティブで、学習可能で、パーソナルであり、自然でラグのない会話を可能にする必要があります。
マルチモーダル情報の処理で大きな進歩を遂げましたが、会話応答時間を達成することは難しいエンジニアリング課題です。長年にわたり、モデルが知覚し、推論し、会話する方法を改良し、対話がより自然に感じられるようにしてきました。
Geminiを基盤に、ビデオフレームを継続的にエンコードし、ビデオと音声入力をイベントのタイムラインに統合し、このデータを迅速に呼び出せるようにキャッシュすることで、情報をより速く処理するプロトタイプエージェントを開発しました。
トップレベルの音声モデルを使用することで、エージェントの音声も改善し、より幅広いイントネーションを提供します。彼らは置かれたコンテキストをよりよく理解し、会話で迅速に応答できます。
この技術により、誰もが電話やメガネを通じて専門のAIアシスタントを持つ未来を想像するのは簡単です。これらの機能の一部は、今年後半にGeminiアプリやウェブ体験などのGoogle製品に導入されます。
継続的な探求
Geminiモデルファミリーで大きな進歩を遂げましたが、さらに限界を押し広げることに取り組んでいます。絶え間ないイノベーションを通じて、新しいフロンティアを探求し、Geminiのエキサイティングな新しいユースケースを解放しています。
Geminiとその能力について詳しく知りたい場合は、リソースをご覧ください。




Googleからのさらなるストーリーをあなたの受信トレイで。Googleからのさらなるストーリーをあなたの受信トレイで。
購読完了。あと一歩です。
受信トレイを確認して購読を確定してください。
あなたはすでにニュースレターに登録されています。
別のメールアドレスでも購読できます。



ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀




젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓




O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓




El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.




O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀




¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓












