オプション
ニュース
Geminiは、強化されたモデル、拡張コンテキスト、AIエージェントを発表します

Geminiは、強化されたモデル、拡張コンテキスト、AIエージェントを発表します

2025年4月10日
48

昨年12月に、初のネイティブマルチモーダルモデルであるGemini 1.0を、Ultra、Pro、Nanoの3つのサイズでリリースしました。それから数ヶ月後、1.5 Proを導入し、強化された性能と画期的な100万トークンの長コンテキストウィンドウを備えました。

開発者や企業顧客は、1.5 Proを非常に素晴らしい方法で活用しており、その長コンテキストウィンドウ、堅牢なマルチモーダル推論、そして全体的に優れた性能を高く評価しています。

ユーザーからのフィードバックでは、遅延とコストが低いモデルが求められていることが強調され、さらなる進化を促すきっかけとなりました。そのため、今日、Gemini 1.5 Flashを紹介します。このモデルは1.5 Proよりも軽量で、迅速かつ効率的に設計されており、スケールアップに最適です。

1.5 Proと1.5 Flashは現在、パブリックプレビュー中で、100万トークンのコンテキストウィンドウを備え、Google AI StudioおよびVertex AIを通じて利用可能です。さらに必要な方のために、1.5 ProはAPIを使用する開発者やGoogle Cloudの顧客向けに、ウェイトリストを通じて200万トークンのコンテキストウィンドウを提供します。

それだけではありません。Geminiファミリー全体にわたるアップデートを展開し、次世代のオープンなモデルであるGemma 2を公開し、Project AstraによるAIアシスタントの未来に進展を遂げています。

主要な基盤モデルのコンテキスト長とGemini 1.5の200万トークンの能力を比較

Geminiモデルファミリーのアップデート

新1.5 Flash、速度と効率に最適化

1.5 Flashを紹介します。これはGeminiファミリーの最新かつ最速のメンバーであり、当社のAPIを通じて提供されます。高頻度で大量のタスク向けにカスタマイズされており、コスト効率の高いスケーラビリティを提供しつつ、画期的な長コンテキストウィンドウを維持します。

1.5 Proよりも軽量ですが、1.5 Flashは決して劣っていません。膨大なデータセットにわたるマルチモーダル推論に優れ、そのサイズに対して印象的な品質を提供します。

新しいGemini 1.5 Flashモデルは、速度と効率に最適化され、マルチモーダル推論に非常に優れ、画期的な長コンテキストウィンドウを備えています。

1.5 Flashは、要約、チャットアプリケーション、画像やビデオのキャプション作成などのタスクで輝きます。長編ドキュメントや表からのデータ抽出にも優れています。この多様性は、1.5 Proから「蒸留」によってトレーニングされ、大きなモデルの核となる知識とスキルが、より効率的で小さなモデルに受け継がれた結果です。

1.5 Flashの詳細については、更新されたGemini 1.5技術レポート、Gemini技術ページを参照し、その利用可能性と価格について学んでください。

1.5 Proの大幅な改善

過去数ヶ月間、幅広いタスクでトップパフォーマーである1.5 Proを大幅に強化してきました。

コンテキストウィンドウを200万トークンに拡張し、コード生成、論理的推論、計画、複数ターン会話、オーディオや画像の理解における能力を向上させました。これらの強化は、データとアルゴリズムの進歩に裏打ちされ、公開および内部ベンチマークで顕著な改善を示しています。

1.5 Proは、役割、フォーマット、スタイルといった製品レベルの動作を定義する、ますます複雑で微妙な指示を処理できるようになりました。特定のユースケースに対するモデルの応答制御を改良し、チャットエージェントのペルソナのカスタマイズや複数の関数呼び出しによるワークフローの自動化などが可能です。ユーザーはシステム指示を通じてモデルの動作を操縦できます。

また、Gemini APIおよびGoogle AI Studioにオーディオ理解を追加し、1.5 ProがGoogle AI Studioにアップロードされたビデオの画像とオーディオの両方を処理できるようにしました。1.5 ProをGemini AdvancedやWorkspaceアプリなどのGoogle製品に統合しています。

1.5 Proの詳細については、更新されたGemini 1.5技術レポートおよびGemini技術ページをご覧ください。

Gemini Nanoがマルチモーダル入力を理解

Gemini Nanoは、テキストのみの入力から進化し、画像を含むようになりました。Pixelから始まり、マルチモーダル性を備えたGemini Nanoを使用するアプリは、テキスト、ビジュアル、サウンド、音声言語を通じて、より人間らしい方法で世界を解釈できるようになります。

AndroidでのGemini 1.0 Nanoの詳細をご覧ください。

次世代のオープンなモデル

今日、Geminiモデルと同じ研究と技術に基づいて構築されたオープンなモデルファミリーであるGemmaもアップデートしています。

責任あるAIイノベーションのための次世代オープンなモデル、Gemma 2をリリースします。Gemma 2は、優れた性能と効率のための新しいアーキテクチャを備え、新しいサイズで提供されます。

Gemmaファミリーは、PaLI-3にインスパイアされた初のビジョン言語モデルであるPaliGemmaとともに成長しています。また、モデル応答品質を評価するためのLLM Comparatorを備えたResponsible Generative AI Toolkitもアップグレードしました。

詳細については、Developerブログをご覧ください。

ユニバーサルAIエージェントの開発の進展

Google DeepMindでは、責任あるAIを構築し、人類に利益をもたらすことを使命としています。私たちは常に、日常生活を支援できるユニバーサルAIエージェントの作成を目指してきました。そのため、Project Astra(高度な視覚と会話対応エージェント)によるAIアシスタントの未来に関する進捗を共有します。

AIエージェントが真に役立つためには、人間のように世界を理解し反応し、見たものや聞いたものを記憶してコンテキストを把握し、それに応じて行動する必要があります。また、プロアクティブで、学習可能で、パーソナルであり、自然でラグのない会話を可能にする必要があります。

マルチモーダル情報の処理で大きな進歩を遂げましたが、会話応答時間を達成することは難しいエンジニアリング課題です。長年にわたり、モデルが知覚し、推論し、会話する方法を改良し、対話がより自然に感じられるようにしてきました。

Geminiを基盤に、ビデオフレームを継続的にエンコードし、ビデオと音声入力をイベントのタイムラインに統合し、このデータを迅速に呼び出せるようにキャッシュすることで、情報をより速く処理するプロトタイプエージェントを開発しました。

トップレベルの音声モデルを使用することで、エージェントの音声も改善し、より幅広いイントネーションを提供します。彼らは置かれたコンテキストをよりよく理解し、会話で迅速に応答できます。

この技術により、誰もが電話やメガネを通じて専門のAIアシスタントを持つ未来を想像するのは簡単です。これらの機能の一部は、今年後半にGeminiアプリやウェブ体験などのGoogle製品に導入されます。

継続的な探求

Geminiモデルファミリーで大きな進歩を遂げましたが、さらに限界を押し広げることに取り組んでいます。絶え間ないイノベーションを通じて、新しいフロンティアを探求し、Geminiのエキサイティングな新しいユースケースを解放しています。

Geminiとその能力について詳しく知りたい場合は、リソースをご覧ください。

Googleからのさらなるストーリーをあなたの受信トレイで。Googleからのさらなるストーリーをあなたの受信トレイで。

メールアドレス あなたの情報はGoogleのプライバシーポリシーに従って使用されます。

購読完了。あと一歩です。

受信トレイを確認して購読を確定してください。

あなたはすでにニュースレターに登録されています。

別のメールアドレスでも購読できます。

関連記事
SalesforceがSlackでAIデジタルチームメイトを公開、Microsoft Copilotに対抗 SalesforceがSlackでAIデジタルチームメイトを公開、Microsoft Copilotに対抗 Salesforceは新しい職場AI戦略を発表し、月曜日にSlackの会話に統合された専門の「デジタルチームメイト」を導入した。新ツール「SlackのAgentforce」は、企業が職場チャットを検索し、会社データにアクセスし、従業員が日常的に働くメッセージングプラットフォーム内でアクションを実行するタスク特化型AIエージェントを作成・展開できる。「専門の従業員が協力して問題を解決するように、クラ
Oracleの40億ドルNvidiaチップ投資がテキサスAIデータセンターを強化 Oracleの40億ドルNvidiaチップ投資がテキサスAIデータセンターを強化 Oracleは、Financial Timesが報じたところによると、OpenAIが開発するテキサスの主要な新データセンターを動かすために、約40億ドルのNvidiaチップに投資する予定です。この取引は、これまでで最大規模のチップ取得の一つであり、AIコンピューティングリソースに対する急増する需要を強調しています。テキサス州アビリーンに位置するこの施設は、米国初の「Stargate」データセンター
Meta AIアプリがプレミアム層と広告を導入 Meta AIアプリがプレミアム層と広告を導入 MetaのAIアプリは、OpenAI、Google、Microsoftなどの競合他社と同様に、有料サブスクリプションを近日中に導入する可能性があります。2025年第1四半期の決算発表で、MetaのCEOマーク・ザッカーバーグは、プレミアムサービス計画を発表し、ユーザーがMeta AIで強化された計算能力や追加機能にアクセスできるようにすると述べました。ChatGPTに対抗するため、Metaは今週、
コメント (25)
0/200
LucasWalker
LucasWalker 2025年4月19日 6:37:58 JST

ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀

FrankSmith
FrankSmith 2025年4月16日 9:37:56 JST

젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓

JamesMiller
JamesMiller 2025年4月16日 2:53:33 JST

O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓

MarkRoberts
MarkRoberts 2025年4月15日 10:25:31 JST

El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.

BillyGarcia
BillyGarcia 2025年4月15日 4:20:08 JST

O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀

RogerRoberts
RogerRoberts 2025年4月15日 2:06:25 JST

¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓

トップに戻ります
OR