谷歌DeepMind的TIPSv2:真正理解图像而非仅是匆匆一瞥的人工智能
当前,AI图像理解存在一个核心局限。
当被问及“这张图片里有什么?”时,它能给出详细的回答。然而,若问“熊猫的左后腿在哪里?”,得到的却是模棱两可的回答。这并非某个特定模型的缺陷,而是整个视觉-语言大型模型领域普遍存在的问题:具备强大的全局理解能力,却缺乏精准的局部定位能力。
谷歌DeepMind在其最新论文中推出了TIPSv2,该模型正是为解决这一难题而专门设计的。

研究团队观察到一个反直觉的现象:在精细分割任务中,较小的学生模型往往表现优于更大的教师模型。这是因为知识蒸馏去除了遮挡机制,迫使模型学习整张图像的每一个细节,从而形成一种“全域监督”。受此启发,TIPSv2引入了三项关键改进。
首先是 iBOT++。传统预训练仅针对遮罩区域计算损失,导致可见区域被忽视,从而造成局部语义漂移。iBOT++ 要求模型对所有可见区域提供精确监督,将任务从“拼图游戏”有效升级为“仔细阅读全文”。这一改进使零样本分割性能提升了 14.1 个百分点。
其次,仅头部 EMA。传统的自监督训练需要在内存中保留两个几乎完全相同的大型模型,这极度消耗资源。TIPSv2 发现,仅图像-文本对比损失就足以稳定骨干网络,因此 EMA 只需应用于最终的投影头,无需复制骨干网络。这将训练参数数量减少了约 42%,使训练速度更快,且性能几乎没有下降。
第三,多粒度文本配对。训练过程中,由 Gemini 生成的短网页描述、中等细节描述和长描述会被随机混合并输入模型,在简单任务和困难任务之间交替进行。这既防止模型在简单任务中懈怠,又确保不会遗漏任何细节。
最终结果令人信服。TIPSv2在九项任务和20个权威数据集上进行了冻结评估。零样本语义分割创下了新的行业基准,而图像文本检索和分类任务的表现则超越了参数多出56%的对比模型。纯视觉任务的表现也名列前茅。
TIPSv2的代码和模型权重已完全开源。对于从事医学影像、自动驾驶、工业检测以及其他需要高精度图像理解领域的团队而言,该解决方案值得深入研究。
论文:https://www.alphaxiv.org/abs/2604.12012
相关文章
人工智能风险投资热潮推动单季营收突破万亿元,掀起新一轮创新浪潮
全球人工智能领域的风险投资正呈现爆发式增长。今年第一季度,共完成了近600轮人工智能相关融资,总额超过1100亿元人民币,同比增长185.4%。资本主要集中于三大关键领域5月,国内领先的大模型公司如Moonshot和Step Star取得进一步进展,融资额超过300亿元。与此同时,具身智能领域也吸引了大量投资,新兴企业VITA Dynamics和Luming Robotics在一周内分别完成了数十
OpenAI 停用 o3 和 GPT-4.5 大型模型
作为人工智能领域的领军企业,OpenAI的每一步技术举措都会在业界引发巨大反响。近日,该公司发布了一项重大公告:将从其ChatGPT平台退役两个经典模型——o3和GPT-4.5。 常被称为“人文天才”的 GPT-4.5 将于 6 月 27 日下线,而以硬核推理能力著称的 o3 则将于 8 月 26 日跟进。经典模型的退役引发怀旧之情这一突如其来的消息让许多付费老用户难以接受,社交社区和讨论区很快充
AIGCPanel 2.0.0 重大更新:工作流引擎开启自动化数字人创作的新纪元
AIGCPanel 作为一款强大的本地数字人创作工具,刚刚发布了 2.0.0 版本——被誉为“迄今为止最重大的更新”。 此次核心升级通过工作流引擎和CLI命令行工具,将数字人合成、语音克隆及音视频处理功能有机整合,从而解决了当前AI创作工具分散的问题,实现了从手动组装到自动化生产的转变。1. 核心升级:定义逻辑流程,一键输出AIGCPanel 2.0.0 的突出新功能是工作流引擎:基于节点的组合:
相关专题推荐
评论 (0)
0/500
当前,AI图像理解存在一个核心局限。
当被问及“这张图片里有什么?”时,它能给出详细的回答。然而,若问“熊猫的左后腿在哪里?”,得到的却是模棱两可的回答。这并非某个特定模型的缺陷,而是整个视觉-语言大型模型领域普遍存在的问题:具备强大的全局理解能力,却缺乏精准的局部定位能力。
谷歌DeepMind在其最新论文中推出了TIPSv2,该模型正是为解决这一难题而专门设计的。

研究团队观察到一个反直觉的现象:在精细分割任务中,较小的学生模型往往表现优于更大的教师模型。这是因为知识蒸馏去除了遮挡机制,迫使模型学习整张图像的每一个细节,从而形成一种“全域监督”。受此启发,TIPSv2引入了三项关键改进。
首先是 iBOT++。传统预训练仅针对遮罩区域计算损失,导致可见区域被忽视,从而造成局部语义漂移。iBOT++ 要求模型对所有可见区域提供精确监督,将任务从“拼图游戏”有效升级为“仔细阅读全文”。这一改进使零样本分割性能提升了 14.1 个百分点。
其次,仅头部 EMA。传统的自监督训练需要在内存中保留两个几乎完全相同的大型模型,这极度消耗资源。TIPSv2 发现,仅图像-文本对比损失就足以稳定骨干网络,因此 EMA 只需应用于最终的投影头,无需复制骨干网络。这将训练参数数量减少了约 42%,使训练速度更快,且性能几乎没有下降。
第三,多粒度文本配对。训练过程中,由 Gemini 生成的短网页描述、中等细节描述和长描述会被随机混合并输入模型,在简单任务和困难任务之间交替进行。这既防止模型在简单任务中懈怠,又确保不会遗漏任何细节。
最终结果令人信服。TIPSv2在九项任务和20个权威数据集上进行了冻结评估。零样本语义分割创下了新的行业基准,而图像文本检索和分类任务的表现则超越了参数多出56%的对比模型。纯视觉任务的表现也名列前茅。
TIPSv2的代码和模型权重已完全开源。对于从事医学影像、自动驾驶、工业检测以及其他需要高精度图像理解领域的团队而言,该解决方案值得深入研究。
论文:https://www.alphaxiv.org/abs/2604.12012
人工智能风险投资热潮推动单季营收突破万亿元,掀起新一轮创新浪潮
全球人工智能领域的风险投资正呈现爆发式增长。今年第一季度,共完成了近600轮人工智能相关融资,总额超过1100亿元人民币,同比增长185.4%。资本主要集中于三大关键领域5月,国内领先的大模型公司如Moonshot和Step Star取得进一步进展,融资额超过300亿元。与此同时,具身智能领域也吸引了大量投资,新兴企业VITA Dynamics和Luming Robotics在一周内分别完成了数十
OpenAI 停用 o3 和 GPT-4.5 大型模型
作为人工智能领域的领军企业,OpenAI的每一步技术举措都会在业界引发巨大反响。近日,该公司发布了一项重大公告:将从其ChatGPT平台退役两个经典模型——o3和GPT-4.5。 常被称为“人文天才”的 GPT-4.5 将于 6 月 27 日下线,而以硬核推理能力著称的 o3 则将于 8 月 26 日跟进。经典模型的退役引发怀旧之情这一突如其来的消息让许多付费老用户难以接受,社交社区和讨论区很快充
AIGCPanel 2.0.0 重大更新:工作流引擎开启自动化数字人创作的新纪元
AIGCPanel 作为一款强大的本地数字人创作工具,刚刚发布了 2.0.0 版本——被誉为“迄今为止最重大的更新”。 此次核心升级通过工作流引擎和CLI命令行工具,将数字人合成、语音克隆及音视频处理功能有机整合,从而解决了当前AI创作工具分散的问题,实现了从手动组装到自动化生产的转变。1. 核心升级:定义逻辑流程,一键输出AIGCPanel 2.0.0 的突出新功能是工作流引擎:基于节点的组合:





首页






