Google DeepMindのTIPSv2：画像を「一瞥する」だけでなく、真に理解するAI

家

ニュース

2026年5月31日

WillWalker

現在のAIによる画像理解には、根本的な限界があります。

「この写真には何が写っていますか？」と尋ねれば、詳細な回答が得られます。しかし、「パンダの左後ろ足はどこにありますか？」と尋ねると、曖昧な回答になってしまいます。これは特定のモデルの欠陥ではなく、視覚言語大規模モデル分野全体に共通する根深い課題、すなわち「全体的な理解力は高いが、局所的な位置特定能力は低い」という問題です。

Google DeepMindは最新の論文で、この難題に対処するために特別に設計された「TIPSv2」を発表した。

TIPSv2 手法の図解

研究チームは、直感に反する発見をしました。それは、きめ細かいセグメンテーションタスクにおいて、小型の「生徒」モデルが大型の「教師」モデルよりも優れた性能を発揮することが頻繁にあるということです。これは、ディスティレーション（知識の蒸留）によってマスキング機構が取り除かれ、モデルが画像全体の細部まで学習することを余儀なくされるためであり、一種の「全領域監督」が生まれるからです。この知見に基づき、TIPSv2では3つの重要な改良が導入されました。

第一に、iBOT++です。従来の事前学習では、マスクされた領域に対してのみ損失を計算するため、可視領域は放置された状態となり、局所的な意味論がずれてしまいます。iBOT++では、モデルがすべての可視領域に対して正確な監督を行うことを要求し、タスクを「パズルゲーム」から「テキスト全体を注意深く読むこと」へと効果的に昇華させます。この単一の改善により、ゼロショットセグメンテーションの性能が14.1ポイント向上しました。

第二に、Head-only EMAです。従来の自己教師付き学習では、ほぼ同一の2つの大規模モデルをメモリに保持する必要があり、リソースを大量に消費します。TIPSv2は、画像-テキスト対比損失だけでバックボーンネットワークを安定化できることを発見しました。そのため、EMAは最終的な投影ヘッドにのみ適用すればよく、バックボーンを複製する必要がなくなります。これにより、学習パラメータ数が約42%削減され、性能の低下をほとんど伴わずに高速化が実現しました。

第三に、多粒度テキストペアリングです。トレーニング中、Geminiによって生成された短いWeb説明文、中程度の詳細説明文、および長い説明文をランダムに混合し、モデルに入力します。これにより、易しいタスクと難しいタスクを交互に処理します。これにより、モデルが単純なタスクで手を抜くことを防ぎつつ、詳細が見落とされることもありません。

最終的な結果は極めて説得力のあるものです。TIPSv2は、9つのタスクと20の権威あるデータセットにおいてフローズン評価を受けました。ゼロショットセマンティックセグメンテーションでは業界の新たなベンチマークを達成し、画像テキスト検索および分類では、パラメータ数が56%多い比較モデルを上回る性能を示しました。純粋な視覚タスクにおいても、トップクラスの性能を発揮しました。

TIPSv2のコードとモデル重みは完全にオープンソース化されています。医療画像、自動運転、産業用検査、および高精度な画像理解が求められるその他の分野に取り組むチームにとって、このソリューションは注目に値するものです。

論文：https://www.alphaxiv.org/abs/2604.12012

「StrictlyVC サンフランシスコ」に、TDKベンチャーズやReplitなどのリーダーが集結今年最初のStrictlyVCイベントが、あっという間にサンフランシスコで開催されます。 4月30日にセントロ・フィリピーノ・カルチュラル・センターで開催される本イベントのチケットは、現在も販売中です。豪華なスピーカー陣が登壇するこのイベントでは、StrictlyVCならではのネットワーキングやコミュニティ交流に加え、資金調達に関する最新の知見を求めるAI分野のイノベーターや起業家の方々にとって、

Notionは、ワークスペースをAIエージェントのハブへと変革します生産性向上ソフトウェア企業であるNotionが、「エージェント時代」に突入する。水曜日にライブ配信された製品発表会で、共同ノート作成アプリで知られるNotionは、カスタムAIエージェントの機能を拡張し、外部エージェントと連携し、あらゆるデータベースからデータを取得できる自動化された多段階ワークフローをチームが構築できるようにする新しい開発者向けプラットフォームを発表した。複数のツールやデータソー

リライト用の記事タイトルを教えていただけますか？かつてプロ仕様のポートレート写真を撮るには、カメラマンを雇い、スタジオを借り、少なくとも1時間は時間を確保する必要がありました。今日では、AIを活用したプラットフォームが増え、そうした手間を省きながらも、洗練された、そのまま公開できるような画像を手に入れられると謳うサービスが数多く登場しています。その約束を果たすサービスもあれば、そうでないサービスも数多く存在します。価値のあるAIヘッドショットと

関連特集おすすめ

書き込み

ラジオおよびポッドキャスト用の最適なAIスクリプティングツール：魅力的なオーディオコマーシャルを作成する

XIX.AIで2026年に最も優れたAIスクリプティングツールを探そう。厳選された高評価のリストには、魅力的なオーディオコマーシャルを迅速に作成するための強力で革新的なソリューションが掲載されている。無料版と有料版を実際のテストと毎週更新されるランキングで比較してみよう。今日からあなたの創造性を解き放ってください！

10 ツール

xix.ai

仕事

最高のAI契約書レビューソフトウェア：法的な抜け穴やコンプライアンス上のリスクを即座に特定

XIX.AIで、2026年最高のAI契約書レビューソフトウェアを見つけましょう。厳選された高評価のリストには、法的抜け穴やコンプライアンス上のリスクを瞬時に特定する強力なツールが揃っています。実際のテスト結果や毎週更新されるランキングをもとに、無料版と有料版を比較できます。安全かつ効率的な契約書分析を実現する、画期的なソリューションを見つけましょう。今すぐ決定版ガイドをご覧ください。

10 ツール

xix.ai

アニメーション制作

東華向けAIアニメジェネレーター：ウェブ小説のキャラクターやコミックのアバターを作成する

2026年に最も優れたAIアニメーション生成ツールを探そう。当社が厳選したリストには、見事なウェブ小説のキャラクターやコミックのアバターを作成するための強力なツールが揃っています。無料オプションと有料オプションを実際のテストで比較し、自分に最適な創造的なパートナーを見つけて、今日すぐにXIX.AIであなたの物語を形にしてみましょう。

10 ツール

xix.ai

漫画制作

漫画向けトップAI自動着色ツール：色むらのないフラットカラーを適用

XIX.AIで、2026年版のおすすめマンガ用AI自動着色ツールをご覧ください。厳選されたリストには、一貫性の誤差ゼロでフラットカラーを適用し、生産性を飛躍的に向上させる、高評価の画期的なソリューションが揃っています。無料版と有料版の比較、実地テスト、毎週更新されるランキングを参考に、あなたにぴったりのツールを見つけてください。今すぐAIの力を活用しましょう。

10 ツール

xix.ai

書き込み

AI小説プロファイル作成のトップクリエイター：一貫性のあるキャラクターの動機と致命的な欠点を生成する

深みのあるキャラクターを創り出す、2026年最高のAIフィクションプロファイル作成ツールを発見しましょう。XIX.AIが厳選したこのリストには、一貫した動機や致命的な欠点を生成する、高評価で業界を変革するツールが揃っています。実際のテスト結果をもとに、無料版と有料版を比較してください。今すぐストーリーテリングの可能性を解き放ちましょう。

10 ツール

xix.ai

仕事

AIを活用した価格最適化ソフトのトップ選定：競合他社の動向を追跡し、店舗価格を自動調整

XIX.AIで、2026年最高のAI価格最適化ソフトウェアを見つけましょう。厳選されたリストには、競合他社の動向を追跡し、利益を最大化するために店舗の価格を自動調整する、高評価の画期的なツールが揃っています。実際のテスト結果をもとに、無料版と有料版を比較してください。今すぐ価格設定における優位性を手に入れましょう。

10 ツール

xix.ai