通过放大人工智能图像的缺陷来解决人工智能图像幻觉问题

首页

新闻

2025-12-22

RalphRoberts

像 ChatGPT 这样的视觉模型经常会编造图像中缺失的元素。一种新颖的方法可以减少这些错误，方法是通过标题生成模型自己幻觉细节的夸张版本，然后提示它进行修改。这种技术无需重新训练或额外数据，因此广泛适用于各种模型和架构。

中国的一项新研究解决了人工智能生成的图像和视频中出现幻觉的顽疾--这些细节明显与用户的提示相矛盾。

这一过程以常规方式开始：模型描述图像。然后将该说明输入文本到图像模型，生成新的图像--重建图像中的任何额外物体或特征都会直接揭示模型最初的幻觉。通过比较原始图像和生成的图像，系统可以指导模型在未来的尝试中避免重复这些错误。

新方法如何识别和减少图像说明中的幻觉的示例。常规模型描述了原始图像中不存在的鸟类，从而在重建图像中加入了这些鸟类。这些错误用红色标出。相比之下，建议的方法避免了这些编造的细节，同时保持了标题的具体和流畅。来源：https://arxiv.org/pdf/2509.21997

该图展示了新技术如何检测并尽量减少字幕幻觉。标准模型在描述图像时错误地添加了鸟类，而重建版本则在视觉上插入了鸟类（红色突出显示）。新方法在保持描述准确性的同时避免了这些编造。来源：https://arxiv.org/pdf/2509.21997

该方法首先让模型描述真实的图像，有时会包括实际不存在的物体或细节。这些不准确的说明会生成突出错误的合成图像。通过比较真实图像和合成图像，系统可以识别出导致编造内容的内部模式。

一旦识别出这些错误模式，它们就会被储存起来，以备将来使用。在为新图像添加字幕时，系统会调整模型的内部信号，使其远离已知的幻觉触发点。在测试过程中，无需额外数据、重新训练或生成图像，即可一次性完成校正。

纠缠的挑战

在论文的例子中，"纠缠 "很可能解释了为什么在一张没有鸟类的图像中加入了鸟类。

当模型将某些概念与训练数据中经常出现的概念紧密联系在一起时，就会出现纠缠现象。在这里，模型可能经常将飞机与鸟类联系在一起，从而产生了一种联想，错误地影响了标题。

虽然提前结束训练可以减少纠缠（增加模型的灵活性），但同时也会减少概念细节和分辨率。开发人员面临着一个长期的权衡问题：是优先考虑灵活的、不容易纠缠的模型，还是优先考虑更容易产生联想幻觉的模型？

在理想情况下，源图像标题会逐项列出存在的每个对象，允许模型将它们存储为单独的、分离的条目。然而，搜索引擎优化驱动的标题做法和大规模网络搜刮--在训练功能强大的生成模型时很常见--往往达不到这一标准。

弱标题限制了 LAION 图像对稳定扩散等模型的训练作用。许多文本标签都很肤浅、模糊，或者是为了搜索引擎优化而优化的，而不是为了准确描述，这使得模型更难学习细粒度的视觉概念，如面部特征（原始来源为 https://rom1504.github.io/，现已停用）。

薄弱的标题降低了 LAION 图像对稳定扩散等模型的训练价值。标签往往肤浅、含糊不清，或以搜索引擎优化为重点，而不是描述性的，从而阻碍了模型学习面部特征等详细视觉概念的能力。(原始来源是 https://rom1504.github.io/，现已停用）。

由于从根本上解决问题是不切实际的，因此减少 LLM 和 VLM 产生幻觉的变通方法已成为研究的重点。中国的新方法在不同的架构和条件下进行了测试，显示出抑制 "幻觉污染 "的前景。

作者指出

多个基准的广泛实验表明，我们的方法在对象、属性和关系层面上显著减少了幻觉，同时在很大程度上保留了召回率和标题[丰富度]。

这篇题为《暴露幻觉以抑制幻觉：使用生成锚点的 VLMs 表征编辑》的论文来自中国科学技术大学和南京大学的研究人员。

方法的工作原理

研究人员开发了一个端到端的管道，用于暴露和抑制字幕幻觉：

整个流程的示意图。视觉语言模型首先根据输入图像生成标题，其中可能包含幻觉内容。然后，通过文本到图像模型，利用该标题生成重建图像，使任何幻觉更容易被发现。从原始图像和重建图像中提取嵌入信息，用于指导解码器内部的调整，帮助模型抑制幻觉细节，同时保持字幕质量。

完整流水线图解。视觉语言模型根据输入图像生成标题，其中可能包括幻觉。该标题通过文本到图像模型用于创建重建图像，从而使错误显而易见。来自两幅图像的嵌入信息可指导内部调整，帮助模型在不损失字幕质量的情况下减少被篡改的细节。

视觉语言模型首先为真实图像添加标题，可能会编造物体或关系。然后，字幕会生成一幅重建图像，将任何编造的内容显示为视觉差异。比较这两幅图像，可以将细微的文字错误转化为可测量、可纠正的信号。

为了阻止编造，系统将原始图像（可靠参考）与重建图像（突出错误）进行比较。每张图像都被转换成一个紧凑的嵌入。通过调整内部表征，使其更接近原始图像并偏离重建图像，该模型以完全自我监督的方式进行自我修正。

论文解释道：

MLLMs中的幻觉本质上很难被检测到，因为它们在语言上格式完备，与文本层面的忠实描述往往无法区分。这种差异不在于语言的可信度，而在于与视觉证据的错位，而模型本身通常对视觉证据不敏感。

为了解决这个问题，我们引入了一种幻觉暴露机制，利用生成重构将隐含的不一致性转化为明确的可观察信号。

该系统使用 FLUX.1-dev 文本到图像模型，根据标题重现图像，夸大任何错误细节。这些被放大的错误有助于模型识别并纠正错误。

为了验证这种方法，研究人员在标题中注入了幻觉，生成了重建的图像，然后用 LLaVA 重新为它们加上了标题。他们测量了原始标题和幻觉标题之间的语义相似性：

幻觉放大机制如何使细微错误显而易见的示例。每一点都显示了原始图像和重建图像的标题之间的相似度，即一对图像-标题。橙色线表示直接测量原始标题和幻觉标题之间的相似度，该相似度一直很高，并能掩盖细微的错误；蓝色线表示重建后的相似度，该相似度急剧下降，表明该过程将隐藏的幻觉变成了可以检测和纠正的清晰语义标记。

幻觉放大机制将细微错误可视化。每个点都显示了图像-字幕对的字幕相似性。橙色线（直接对比）仍然很高，掩盖了错误；蓝色线（重构后）急剧下降，揭示了作为可检测语义标记的隐藏幻觉。

重构后的相似度明显下降，这表明该方法有能力揭示微妙的错误。

数据和测试

使用三个基准对有效性进行了验证：具有图像相关性的字幕幻觉评估(CHAIR)；MLLM 评估(MME)；基于汇集的对象探测评估(POPE)。

摘自 CHAIR 发布的论文：两个主要字幕系统 TopDown 和 NBT 生成幻觉对象的示例，其中每个模型都编造了图像中实际不存在的视觉元素，如笔记本电脑、水槽或冲浪板。来源：https://arxiv.org/pdf/1809.02156

摘自 CHAIR 发布论文：由字幕系统 TopDown 和 NBT 生成的幻觉对象示例，其中发明了图像中不存在的元素，如笔记本电脑、水槽或冲浪板。来源：https://arxiv.org/pdf/1809.02156

幻觉率或召回率等标准指标可能会产生误导--模型可能会通过生成模糊的字幕来避免错误。为了在准确性和完整性之间取得平衡，我们使用了幻觉和召回率（HAR@β）组合指标，通过可调整的权重对这两个因素进行评分。

POPE 评估对上下文敏感的对象幻觉，MME 评估属性级幻觉，两者都是 "是/否 "任务。

测试在 Microsoft COCO、A-OKVQA 和 GQA 等数据集上使用了 Flux 模型和 LLaVA-v1.5-7B。潜在编辑针对模型的第二层，所有测试的超参数和温度都保持一致。

CHAIR 的初步结果如下*：

使用多种指标评估的幻觉缓解 CHAIR 基准性能。

作者指出

我们的方法在_CHAIRS和_CHAIRI[*]上的表现始终优于其他基线方法，这证明了它在抑制幻觉方面的卓越功效。同时，尽管几乎所有的方法在抑制幻觉的同时都不可避免地降低了召回率，这反映了忠实性和信息量之间的权衡，但我们的方法实现了最小的下降。

这表明我们的方法可以捕捉到广泛的地面实况对象。在 HAR@β 指标下，我们的方法获得了最高分，突出了其在保持覆盖率的同时减少幻觉的能力。

强大的结果归功于双重监督：从原始图像中强化清晰的语义，同时抑制重建图像中的误导信号。通过只针对与幻觉相关的方向，系统在纠正错误的同时不会丢失细节。

不同配置和数据集的 POPE 基准性能比较。

关于 POPE 的结果，论文指出

可以看出，我们的方法在所有设置中都始终保持最佳性能。值得注意的是，我们的方法平均能达到 +5.95% 的准确率和 +6.85% 的 F1 分数，远远超过其他免训练方法。

因此，这些结果表明，我们的方法提供了一种可靠且可通用的解决方案，适用于不同的难度水平。

MME 第三轮测试的性能比较。

最后一次主要测试是在 MME 上进行的，结果如上所示。然而，论文在正文和附录中都没有定义 "OPERA "方法。虽然作者声称 MME 性能强劲，但由于缺乏方法细节，因此在解释这些结果时应谨慎。

头条新闻

AI Builder和Power Automate革新文档摘要 AI寄主Notebooklm播客现已上中国发布人形机器人及具身智能国家标准 Ramp 数据显示企业人工智能应用趋于平稳 Bing图像创建者教程：AI艺术生成指南学习使用您的声音创建AI音乐：逐步Suno教程 iMyFone MagicMic：实时AI变声器评测与教程 2025顶级AI视频生成器：Pika Labs与其他对比 DeepSeek V4 作为多模态人工智能变革者横空出世 Embodied Intelligence 发布首个行业标准，旨在遏制无序增长

精选

Claude 认识Claude：您的AI助手智能工作是否希望您有一个知识渊博的同事，他随时准备

Cici AI 你是否曾经好奇过Cici AI到底是什么？让我告诉你，它不仅仅是一个普通的AI聊

Gemini 有没有想过关于双子座的嗡嗡声是什么？让我为您分解。双子座是由Google Dee

DeepSeek 曾经想过什么是全部意见？让我为您分解。 DeepSeek不仅是另一个AI平台；无

Grok 听说过Grok吗？这是Xai的Nifty AI助手，这一切都是为了给您直接的勺子

ChatGPT 有没有想过什么是什么？好吧，让我为您分解它 - 聊天不仅仅是您在技术领域的普通乔

OpenAI 有没有想过Openai周围的嗡嗡声是什么？好吧，让我为您分解。 Openai不仅

Tencent Hunyuan 腾讯hunyuan-large，是吗？就像腾讯技术巨头开发的AI模型的瑞士军刀一

Qwen AI 有没有想过Qwen AI是什么？好吧，让我向您介绍阿里巴巴云的这颗宝石。 Qwe

Runway 有没有想过如何将您的常规视频剪辑变成非凡的东西？好吧，让我向您介绍跑道，这是一个