Google DeepMind 的 TIPSv2:真正理解圖像的人工智慧,而非僅是淺嚐輒止
當前人工智慧的圖像理解能力存在一項核心限制。
當被問及「這張圖片裡有什麼?」時,它能給出詳盡的回答。然而,若詢問「熊貓的左後腿在哪裡?」,則會得到模糊的回答。這並非特定模型的缺陷,而是整個視覺語言大型模型領域普遍存在的問題:具備強大的全局理解能力,卻缺乏精確的局部定位能力。
Google DeepMind 在其最新論文中推出了 TIPSv2,該模型正是專為解決這個棘手問題而設計。

研究團隊觀察到一項反直覺的發現:在細粒度分割任務中,較小的學生模型往往表現優於較大的教師模型。這是因為知識蒸餾去除了遮罩機制,迫使模型學習整張圖片的每個細節,從而形成一種「全域監督」。受此洞見啟發,TIPSv2 引入了三項關鍵增強。
首先是 iBOT++。傳統預訓練僅針對遮罩區域計算損失,導致可見區域被忽略,進而造成局部語義漂移。iBOT++ 要求模型對所有可見區域提供精確的監督,有效將任務從「拼圖遊戲」升級為「仔細閱讀整篇文章」。這項單一改進使零樣本分割性能提升了 14.1 個百分點。
其次,僅限投影頭的 EMA。傳統的自監督訓練需要在記憶體中維持兩個幾乎相同的大型模型,這極度消耗資源。TIPSv2 發現,僅憑圖文對比損失就足以穩定骨幹網路,因此 EMA 只需應用於最終的投影頭,無需複製骨幹網路。這使訓練參數數量減少約 42%,不僅加速訓練過程,且幾乎不影響效能。
第三,多粒度文字配對。在訓練過程中,由 Gemini 生成的短網文描述、中等細節描述及長描述會隨機混合並輸入模型,並交替進行簡單與困難的任務。這既能防止模型在簡單任務中懈怠,又能確保不遺漏任何細節。
最終成果令人信服。TIPSv2 針對九項任務及 20 個權威資料集進行了凍結評估。零樣本語義分割創下新的業界基準,而圖文檢索與分類表現更超越參數多出 56% 的對照模型。純視覺任務的表現同樣名列前茅。
TIPSv2 的程式碼與模型權重已全面開源。對於從事醫學影像、自動駕駛、工業檢測及其他需要高精度影像理解領域的團隊而言,這套解決方案絕對值得深入研究。
論文:https://www.alphaxiv.org/abs/2604.12012
相關文章
解讀新的 ETSI 人工智慧安全標準
ETSI EN 304 223 制定了人工智慧的基礎安全要求,各組織應將其納入其治理架構之中。隨著企業將機器學習整合至核心工作流程,這項歐洲標準針對保護 AI 模型與系統提供了具體規範。這是首項適用於全球的 AI 網路安全歐洲標準,並已獲各國國家標準組織正式批准,這進一步鞏固了其在國際市場上的公信力。作為《歐盟人工智慧法案》的補充性基準,本標準承認人工智慧系統存在獨特風險——包括資料中毒、模型混淆
Gmail 推出個人化 AI 收件匣、搜尋中的 AI 摘要等功能
Google 為 Gmail 推出了一款由 AI 驅動的新收件匣,能為您提供任務的個人化概覽,並讓您隨時掌握重要更新。此外,Gmail 還將在搜尋功能中推出 AI 概覽,並推出一款類似 Grammarly 的校對工具。先前僅限付費訂閱者使用的多項 AI 功能,現已開放給所有使用者使用。新的 AI 收件匣分頁包含兩個區塊:「建議待辦事項」與「待追蹤主題」。 第一個區塊會顯示需要採取行動的高優先級電子
首個山東百度AI漫畫劇集創作基地在淄博正式啟動
4月27日,山東省在淄博師範學院正式啟動了該省首個「百度AI漫畫劇創作基地」,標誌著該省在數位文化創作領域邁出了重要一步。該基地開啟了校企合作的新篇章,旨在透過AI技術與文化創作教育的深度融合,探索培育數位文化創作人才的創新模式。在揭牌儀式上,校方代表強調,該基地將作為創新人才培育及深化政校企合作的重要平台。 展望未來,該校計劃將真實的專案案例引入課堂,擺脫傳統教學方法,建立一個完整的專案式教學循
相關專題推薦
評論 (0)
0/500
當前人工智慧的圖像理解能力存在一項核心限制。
當被問及「這張圖片裡有什麼?」時,它能給出詳盡的回答。然而,若詢問「熊貓的左後腿在哪裡?」,則會得到模糊的回答。這並非特定模型的缺陷,而是整個視覺語言大型模型領域普遍存在的問題:具備強大的全局理解能力,卻缺乏精確的局部定位能力。
Google DeepMind 在其最新論文中推出了 TIPSv2,該模型正是專為解決這個棘手問題而設計。

研究團隊觀察到一項反直覺的發現:在細粒度分割任務中,較小的學生模型往往表現優於較大的教師模型。這是因為知識蒸餾去除了遮罩機制,迫使模型學習整張圖片的每個細節,從而形成一種「全域監督」。受此洞見啟發,TIPSv2 引入了三項關鍵增強。
首先是 iBOT++。傳統預訓練僅針對遮罩區域計算損失,導致可見區域被忽略,進而造成局部語義漂移。iBOT++ 要求模型對所有可見區域提供精確的監督,有效將任務從「拼圖遊戲」升級為「仔細閱讀整篇文章」。這項單一改進使零樣本分割性能提升了 14.1 個百分點。
其次,僅限投影頭的 EMA。傳統的自監督訓練需要在記憶體中維持兩個幾乎相同的大型模型,這極度消耗資源。TIPSv2 發現,僅憑圖文對比損失就足以穩定骨幹網路,因此 EMA 只需應用於最終的投影頭,無需複製骨幹網路。這使訓練參數數量減少約 42%,不僅加速訓練過程,且幾乎不影響效能。
第三,多粒度文字配對。在訓練過程中,由 Gemini 生成的短網文描述、中等細節描述及長描述會隨機混合並輸入模型,並交替進行簡單與困難的任務。這既能防止模型在簡單任務中懈怠,又能確保不遺漏任何細節。
最終成果令人信服。TIPSv2 針對九項任務及 20 個權威資料集進行了凍結評估。零樣本語義分割創下新的業界基準,而圖文檢索與分類表現更超越參數多出 56% 的對照模型。純視覺任務的表現同樣名列前茅。
TIPSv2 的程式碼與模型權重已全面開源。對於從事醫學影像、自動駕駛、工業檢測及其他需要高精度影像理解領域的團隊而言,這套解決方案絕對值得深入研究。
論文:https://www.alphaxiv.org/abs/2604.12012
解讀新的 ETSI 人工智慧安全標準
ETSI EN 304 223 制定了人工智慧的基礎安全要求,各組織應將其納入其治理架構之中。隨著企業將機器學習整合至核心工作流程,這項歐洲標準針對保護 AI 模型與系統提供了具體規範。這是首項適用於全球的 AI 網路安全歐洲標準,並已獲各國國家標準組織正式批准,這進一步鞏固了其在國際市場上的公信力。作為《歐盟人工智慧法案》的補充性基準,本標準承認人工智慧系統存在獨特風險——包括資料中毒、模型混淆
Gmail 推出個人化 AI 收件匣、搜尋中的 AI 摘要等功能
Google 為 Gmail 推出了一款由 AI 驅動的新收件匣,能為您提供任務的個人化概覽,並讓您隨時掌握重要更新。此外,Gmail 還將在搜尋功能中推出 AI 概覽,並推出一款類似 Grammarly 的校對工具。先前僅限付費訂閱者使用的多項 AI 功能,現已開放給所有使用者使用。新的 AI 收件匣分頁包含兩個區塊:「建議待辦事項」與「待追蹤主題」。 第一個區塊會顯示需要採取行動的高優先級電子
首個山東百度AI漫畫劇集創作基地在淄博正式啟動
4月27日,山東省在淄博師範學院正式啟動了該省首個「百度AI漫畫劇創作基地」,標誌著該省在數位文化創作領域邁出了重要一步。該基地開啟了校企合作的新篇章,旨在透過AI技術與文化創作教育的深度融合,探索培育數位文化創作人才的創新模式。在揭牌儀式上,校方代表強調,該基地將作為創新人才培育及深化政校企合作的重要平台。 展望未來,該校計劃將真實的專案案例引入課堂,擺脫傳統教學方法,建立一個完整的專案式教學循





首頁






