Google DeepMindのTIPSv2:画像を「一瞥する」だけでなく、真に理解するAI
現在のAIによる画像理解には、根本的な限界があります。
「この写真には何が写っていますか?」と尋ねれば、詳細な回答が得られます。しかし、「パンダの左後ろ足はどこにありますか?」と尋ねると、曖昧な回答になってしまいます。これは特定のモデルの欠陥ではなく、視覚言語大規模モデル分野全体に共通する根深い課題、すなわち「全体的な理解力は高いが、局所的な位置特定能力は低い」という問題です。
Google DeepMindは最新の論文で、この難題に対処するために特別に設計された「TIPSv2」を発表した。

研究チームは、直感に反する発見をしました。それは、きめ細かいセグメンテーションタスクにおいて、小型の「生徒」モデルが大型の「教師」モデルよりも優れた性能を発揮することが頻繁にあるということです。これは、ディスティレーション(知識の蒸留)によってマスキング機構が取り除かれ、モデルが画像全体の細部まで学習することを余儀なくされるためであり、一種の「全領域監督」が生まれるからです。この知見に基づき、TIPSv2では3つの重要な改良が導入されました。
第一に、iBOT++です。従来の事前学習では、マスクされた領域に対してのみ損失を計算するため、可視領域は放置された状態となり、局所的な意味論がずれてしまいます。iBOT++では、モデルがすべての可視領域に対して正確な監督を行うことを要求し、タスクを「パズルゲーム」から「テキスト全体を注意深く読むこと」へと効果的に昇華させます。この単一の改善により、ゼロショットセグメンテーションの性能が14.1ポイント向上しました。
第二に、Head-only EMAです。従来の自己教師付き学習では、ほぼ同一の2つの大規模モデルをメモリに保持する必要があり、リソースを大量に消費します。TIPSv2は、画像-テキスト対比損失だけでバックボーンネットワークを安定化できることを発見しました。そのため、EMAは最終的な投影ヘッドにのみ適用すればよく、バックボーンを複製する必要がなくなります。これにより、学習パラメータ数が約42%削減され、性能の低下をほとんど伴わずに高速化が実現しました。
第三に、多粒度テキストペアリングです。トレーニング中、Geminiによって生成された短いWeb説明文、中程度の詳細説明文、および長い説明文をランダムに混合し、モデルに入力します。これにより、易しいタスクと難しいタスクを交互に処理します。これにより、モデルが単純なタスクで手を抜くことを防ぎつつ、詳細が見落とされることもありません。
最終的な結果は極めて説得力のあるものです。TIPSv2は、9つのタスクと20の権威あるデータセットにおいてフローズン評価を受けました。ゼロショットセマンティックセグメンテーションでは業界の新たなベンチマークを達成し、画像テキスト検索および分類では、パラメータ数が56%多い比較モデルを上回る性能を示しました。純粋な視覚タスクにおいても、トップクラスの性能を発揮しました。
TIPSv2のコードとモデル重みは完全にオープンソース化されています。医療画像、自動運転、産業用検査、および高精度な画像理解が求められるその他の分野に取り組むチームにとって、このソリューションは注目に値するものです。
論文:https://www.alphaxiv.org/abs/2604.12012
関連記事
「StrictlyVC サンフランシスコ」に、TDKベンチャーズやReplitなどのリーダーが集結
今年最初のStrictlyVCイベントが、あっという間にサンフランシスコで開催されます。 4月30日にセントロ・フィリピーノ・カルチュラル・センターで開催される本イベントのチケットは、現在も販売中です。豪華なスピーカー陣が登壇するこのイベントでは、StrictlyVCならではのネットワーキングやコミュニティ交流に加え、資金調達に関する最新の知見を求めるAI分野のイノベーターや起業家の方々にとって、
Notionは、ワークスペースをAIエージェントのハブへと変革します
生産性向上ソフトウェア企業であるNotionが、「エージェント時代」に突入する。水曜日にライブ配信された製品発表会で、共同ノート作成アプリで知られるNotionは、カスタムAIエージェントの機能を拡張し、外部エージェントと連携し、あらゆるデータベースからデータを取得できる自動化された多段階ワークフローをチームが構築できるようにする新しい開発者向けプラットフォームを発表した。複数のツールやデータソー
リライト用の記事タイトルを教えていただけますか?
かつてプロ仕様のポートレート写真を撮るには、カメラマンを雇い、スタジオを借り、少なくとも1時間は時間を確保する必要がありました。今日では、AIを活用したプラットフォームが増え、そうした手間を省きながらも、洗練された、そのまま公開できるような画像を手に入れられると謳うサービスが数多く登場しています。その約束を果たすサービスもあれば、そうでないサービスも数多く存在します。価値のあるAIヘッドショットと
関連特集おすすめ
コメント (0)
0/500
現在のAIによる画像理解には、根本的な限界があります。
「この写真には何が写っていますか?」と尋ねれば、詳細な回答が得られます。しかし、「パンダの左後ろ足はどこにありますか?」と尋ねると、曖昧な回答になってしまいます。これは特定のモデルの欠陥ではなく、視覚言語大規模モデル分野全体に共通する根深い課題、すなわち「全体的な理解力は高いが、局所的な位置特定能力は低い」という問題です。
Google DeepMindは最新の論文で、この難題に対処するために特別に設計された「TIPSv2」を発表した。

研究チームは、直感に反する発見をしました。それは、きめ細かいセグメンテーションタスクにおいて、小型の「生徒」モデルが大型の「教師」モデルよりも優れた性能を発揮することが頻繁にあるということです。これは、ディスティレーション(知識の蒸留)によってマスキング機構が取り除かれ、モデルが画像全体の細部まで学習することを余儀なくされるためであり、一種の「全領域監督」が生まれるからです。この知見に基づき、TIPSv2では3つの重要な改良が導入されました。
第一に、iBOT++です。従来の事前学習では、マスクされた領域に対してのみ損失を計算するため、可視領域は放置された状態となり、局所的な意味論がずれてしまいます。iBOT++では、モデルがすべての可視領域に対して正確な監督を行うことを要求し、タスクを「パズルゲーム」から「テキスト全体を注意深く読むこと」へと効果的に昇華させます。この単一の改善により、ゼロショットセグメンテーションの性能が14.1ポイント向上しました。
第二に、Head-only EMAです。従来の自己教師付き学習では、ほぼ同一の2つの大規模モデルをメモリに保持する必要があり、リソースを大量に消費します。TIPSv2は、画像-テキスト対比損失だけでバックボーンネットワークを安定化できることを発見しました。そのため、EMAは最終的な投影ヘッドにのみ適用すればよく、バックボーンを複製する必要がなくなります。これにより、学習パラメータ数が約42%削減され、性能の低下をほとんど伴わずに高速化が実現しました。
第三に、多粒度テキストペアリングです。トレーニング中、Geminiによって生成された短いWeb説明文、中程度の詳細説明文、および長い説明文をランダムに混合し、モデルに入力します。これにより、易しいタスクと難しいタスクを交互に処理します。これにより、モデルが単純なタスクで手を抜くことを防ぎつつ、詳細が見落とされることもありません。
最終的な結果は極めて説得力のあるものです。TIPSv2は、9つのタスクと20の権威あるデータセットにおいてフローズン評価を受けました。ゼロショットセマンティックセグメンテーションでは業界の新たなベンチマークを達成し、画像テキスト検索および分類では、パラメータ数が56%多い比較モデルを上回る性能を示しました。純粋な視覚タスクにおいても、トップクラスの性能を発揮しました。
TIPSv2のコードとモデル重みは完全にオープンソース化されています。医療画像、自動運転、産業用検査、および高精度な画像理解が求められるその他の分野に取り組むチームにとって、このソリューションは注目に値するものです。
論文:https://www.alphaxiv.org/abs/2604.12012
「StrictlyVC サンフランシスコ」に、TDKベンチャーズやReplitなどのリーダーが集結
今年最初のStrictlyVCイベントが、あっという間にサンフランシスコで開催されます。 4月30日にセントロ・フィリピーノ・カルチュラル・センターで開催される本イベントのチケットは、現在も販売中です。豪華なスピーカー陣が登壇するこのイベントでは、StrictlyVCならではのネットワーキングやコミュニティ交流に加え、資金調達に関する最新の知見を求めるAI分野のイノベーターや起業家の方々にとって、
Notionは、ワークスペースをAIエージェントのハブへと変革します
生産性向上ソフトウェア企業であるNotionが、「エージェント時代」に突入する。水曜日にライブ配信された製品発表会で、共同ノート作成アプリで知られるNotionは、カスタムAIエージェントの機能を拡張し、外部エージェントと連携し、あらゆるデータベースからデータを取得できる自動化された多段階ワークフローをチームが構築できるようにする新しい開発者向けプラットフォームを発表した。複数のツールやデータソー
リライト用の記事タイトルを教えていただけますか?
かつてプロ仕様のポートレート写真を撮るには、カメラマンを雇い、スタジオを借り、少なくとも1時間は時間を確保する必要がありました。今日では、AIを活用したプラットフォームが増え、そうした手間を省きながらも、洗練された、そのまま公開できるような画像を手に入れられると謳うサービスが数多く登場しています。その約束を果たすサービスもあれば、そうでないサービスも数多く存在します。価値のあるAIヘッドショットと





家






