选项
首页
新闻
谷歌DeepMind的TIPSv2:真正理解图像而非仅是匆匆一瞥的人工智能

谷歌DeepMind的TIPSv2:真正理解图像而非仅是匆匆一瞥的人工智能

2026-05-31
48

当前,AI图像理解存在一个核心局限。

当被问及“这张图片里有什么?”时,它能给出详细的回答。然而,若问“熊猫的左后腿在哪里?”,得到的却是模棱两可的回答。这并非某个特定模型的缺陷,而是整个视觉-语言大型模型领域普遍存在的问题:具备强大的全局理解能力,却缺乏精准的局部定位能力。

谷歌DeepMind在其最新论文中推出了TIPSv2,该模型正是为解决这一难题而专门设计的。

TIPSv2 方法图

研究团队观察到一个反直觉的现象:在精细分割任务中,较小的学生模型往往表现优于更大的教师模型。这是因为知识蒸馏去除了遮挡机制,迫使模型学习整张图像的每一个细节,从而形成一种“全域监督”。受此启发,TIPSv2引入了三项关键改进。

首先是 iBOT++。传统预训练仅针对遮罩区域计算损失,导致可见区域被忽视,从而造成局部语义漂移。iBOT++ 要求模型对所有可见区域提供精确监督,将任务从“拼图游戏”有效升级为“仔细阅读全文”。这一改进使零样本分割性能提升了 14.1 个百分点。

其次,仅头部 EMA。传统的自监督训练需要在内存中保留两个几乎完全相同的大型模型,这极度消耗资源。TIPSv2 发现,仅图像-文本对比损失就足以稳定骨干网络,因此 EMA 只需应用于最终的投影头,无需复制骨干网络。这将训练参数数量减少了约 42%,使训练速度更快,且性能几乎没有下降。

第三,多粒度文本配对。训练过程中,由 Gemini 生成的短网页描述、中等细节描述和长描述会被随机混合并输入模型,在简单任务和困难任务之间交替进行。这既防止模型在简单任务中懈怠,又确保不会遗漏任何细节。

最终结果令人信服。TIPSv2在九项任务和20个权威数据集上进行了冻结评估。零样本语义分割创下了新的行业基准,而图像文本检索和分类任务的表现则超越了参数多出56%的对比模型。纯视觉任务的表现也名列前茅。

TIPSv2的代码和模型权重已完全开源。对于从事医学影像、自动驾驶、工业检测以及其他需要高精度图像理解领域的团队而言,该解决方案值得深入研究。

论文:https://www.alphaxiv.org/abs/2604.12012

相关文章
人工智能风险投资热潮推动单季营收突破万亿元,掀起新一轮创新浪潮 人工智能风险投资热潮推动单季营收突破万亿元,掀起新一轮创新浪潮 全球人工智能领域的风险投资正呈现爆发式增长。今年第一季度,共完成了近600轮人工智能相关融资,总额超过1100亿元人民币,同比增长185.4%。资本主要集中于三大关键领域5月,国内领先的大模型公司如Moonshot和Step Star取得进一步进展,融资额超过300亿元。与此同时,具身智能领域也吸引了大量投资,新兴企业VITA Dynamics和Luming Robotics在一周内分别完成了数十
OpenAI 停用 o3 和 GPT-4.5 大型模型 OpenAI 停用 o3 和 GPT-4.5 大型模型 作为人工智能领域的领军企业,OpenAI的每一步技术举措都会在业界引发巨大反响。近日,该公司发布了一项重大公告:将从其ChatGPT平台退役两个经典模型——o3和GPT-4.5。 常被称为“人文天才”的 GPT-4.5 将于 6 月 27 日下线,而以硬核推理能力著称的 o3 则将于 8 月 26 日跟进。经典模型的退役引发怀旧之情这一突如其来的消息让许多付费老用户难以接受,社交社区和讨论区很快充
AIGCPanel 2.0.0 重大更新:工作流引擎开启自动化数字人创作的新纪元 AIGCPanel 2.0.0 重大更新:工作流引擎开启自动化数字人创作的新纪元 AIGCPanel 作为一款强大的本地数字人创作工具,刚刚发布了 2.0.0 版本——被誉为“迄今为止最重大的更新”。 此次核心升级通过工作流引擎和CLI命令行工具,将数字人合成、语音克隆及音视频处理功能有机整合,从而解决了当前AI创作工具分散的问题,实现了从手动组装到自动化生产的转变。1. 核心升级:定义逻辑流程,一键输出AIGCPanel 2.0.0 的突出新功能是工作流引擎:基于节点的组合:
相关专题推荐
写作 最佳免费且无法被识别的AI写作工具:将生硬的草稿转化为自然流畅、宛如人类撰写的文字
最佳免费且无法被识别的AI写作工具:将生硬的草稿转化为自然流畅、宛如人类撰写的文字

在 XIX.AI 探索 2026 年最佳免费且难以被察觉的 AI 写作工具。我们精心筛选的顶级推荐清单,助您将生硬的草稿转化为自然流畅、宛如人类撰写的文字。通过实际测试和每周更新的排行榜,对比免费与付费选项。立即解锁您的 AI 写作优势。

10 个工具
xix.ai
图像编辑 用于短剧故事板的AI艺术生成工具:幻想与都市浪漫题材的角色设计
用于短剧故事板的AI艺术生成工具:幻想与都市浪漫题材的角色设计

2026最新推荐:探索最适合用于短剧故事板制作的AI艺术生成工具。我们精心挑选了众多顶级工具,帮助您创作出引人入胜的幻想角色和都市浪漫角色。您可以对比免费与付费选项,查看实际测试结果,从而找到最适合自己的创意工具。XIX.AI还会每周更新排名并提供专家分析,让您立即开始将故事可视化呈现吧!

10 个工具
xix.ai
写作 最适合广播和播客使用的AI脚本编写工具:帮助您创作引人入胜的音频广告
最适合广播和播客使用的AI脚本编写工具:帮助您创作引人入胜的音频广告

在XIX.AI上,发现2026年最适合用于广播和播客制作的AI脚本工具。我们精心挑选的这些高评分工具能够提供强大的功能,帮助您快速制作出引人入胜的音频广告。通过实际测试和每周更新的排名,您可以了解免费选项与付费选项之间的差异。今天就释放您的创造力吧!

10 个工具
xix.ai
商业 最佳 AI 合同审查软件:即时发现法律漏洞与合规风险
最佳 AI 合同审查软件:即时发现法律漏洞与合规风险

在 XIX.AI 上探索 2026 年最佳 AI 合同审查软件。我们精心筛选的顶级榜单汇集了功能强大的工具,能够即时发现法律漏洞和合规风险。通过实际测试和每周更新的排名,对比免费与付费选项。找到能彻底改变游戏规则的解决方案,实现安全、高效的合同分析。立即探索这本权威指南。

10 个工具
xix.ai
动画创作 专为东华设计的AI动漫生成器:可用于创建网络小说角色及漫画头像
专为东华设计的AI动漫生成器:可用于创建网络小说角色及漫画头像

探索2026年最适合制作中文动画的人工智能工具。我们精心挑选的顶级列表中包含了各种强大的工具,能够帮助你创建出令人惊叹的网络小说角色和漫画头像。通过实际测试来对比免费选项和付费选项,找到最适合你的创作工具,今天就在XIX.AI上将你的故事变为现实吧。

10 个工具
xix.ai
漫画创作 漫画领域顶尖的AI自动上色工具:零一致性错误地应用平涂色彩
漫画领域顶尖的AI自动上色工具:零一致性错误地应用平涂色彩

立即访问 XIX.AI,探索 2026 年最优秀的漫画 AI 自动上色工具。我们精心筛选的清单汇集了广受好评、颠覆行业的解决方案,这些工具能以零一致性错误的方式应用平涂色彩,从而大幅提升您的工作效率。通过免费版与付费版的对比分析、实际测试以及每周更新的排行榜,找到最适合您的工具。立即开启您的 AI 优势。

10 个工具
xix.ai
评论 (0)
0/500
OR