选项
首页
新闻
谷歌研究:压力导致人工智能模型抛弃真实答案,给多轮系统带来风险

谷歌研究:压力导致人工智能模型抛弃真实答案,给多轮系统带来风险

2025-11-27
150

谷歌 DeepMind 和伦敦大学学院的最新研究探讨了大型语言模型(LLMs)是如何发展、保持和丧失对其反应的信心的。研究结果表明,大型语言模型与人类的认知偏差有着明显的相似之处,同时也指出了两者之间的显著差异。

研究发现,LLMs 可能对自己的回答过于自信,但在面对反驳--甚至是不正确的反驳--时,它们会突然转变立场。把握这种行为的微妙之处,可以影响您如何设计 LLM 应用程序,尤其是涉及多重交互的对话系统。

测试对 LLM 的信心

安全部署 LLM 的一个重要方面是其置信度得分的可靠性--模型为其选择的答案赋予的概率。众所周知,LLMs 可以生成这些分数,但人们对其利用这些分数进行自适应决策的能力却知之甚少。还有一些经验数据表明,LLMs 最初可能过于自信,但在受到批评后又会变得高度不确定和动摇。

为了探究这个问题,研究人员设计了一个对照实验,以了解常识分子在收到外部反馈时是如何调整自己的信心并决定是否改变答案的。在测试中,"回答问题的 LLM "被给出一道二元选择题,例如从两种可能性中选出一个城市的正确纬度。在做出初步选择后,模型会收到来自虚构的 "建议 LLM "的反馈,并附上准确率评级(例如,"该建议 LLM 的准确率为 70%")。这些反馈要么支持,要么反对,要么对原始答案保持中立。然后要求回答问题的 LLM 做出最终决定。

LLM 置信度测试示例(来源:arXiv)
对 LLM 的信心测试示例 来源:arXiv

实验的一个重要特征是控制模型在做出最终决定时能否看到自己的初始答案。在某些试验中,它是可见的;而在另一些试验中,它是隐藏的。这种设置对于无法抹去先前选择的人类参与者来说是不可能的,它有助于研究人员了解对过去决定的记忆是如何影响当前信心的。

在基线条件下,初始答案是隐藏的,反馈是中性的,这有助于测量 LLM 的答案由于处理过程中的自然差异而发生改变的频率。然后,研究小组重点研究了模型对其最初选择的信心是如何从第一轮转向第二轮的,从而深入了解先前的信念是如何影响 "改变主意 "的。

过度自信和信心不足

研究人员首先研究了 LLM 自身答案的可见度如何影响其修改答案的意愿。他们注意到,与隐藏答案的情况相比,当模型可以看到自己最初的选择时,它就不太可能改变主意。这表明了一种特殊的认知偏差。论文称:"这种效应--在最终决策过程中,当一个人的最初选择是可见的(与隐藏的相比)时,他更倾向于坚持自己的最初选择--与一种已知的人类偏差密切相关,这种偏差被称为选择支持偏差"。

研究还验证了这些模型确实包含了外部反馈。当遇到反对意见时,LLM 更倾向于改变主意,而当意见是支持性的时,LLM 的倾向性就会降低。"研究人员指出:"这表明,回答问题的 LLM 会适当地利用建议的方向来调节其改变主意的速度。不过,他们也观察到,该模型对相互矛盾的信息过于敏感,经常过快地更新其信心。

信心测试中 LLM 对不同设置的敏感性 来源:arXiv

值得注意的是,这种行为与人类常见的确认偏差正好相反,在确认偏差中,个体会偏爱与其现有观点一致的信息。研究小组发现,LLMs "无论其最初的答案是否可见,都会偏重于反对而非支持性建议"。其中一个原因可能是,从人类反馈中强化学习(RLHF)等训练方法可能会使模型对用户输入过于认同--这种行为被称为 "谄媚"(sycophancy),一直是人工智能开发人员面临的挑战。

对企业应用的影响

这项研究证实,人工智能系统并不像人们通常认为的那样是纯粹的逻辑代理。它们会表现出自身的偏差--有些类似于人类的认知错误,有些则是独特的人工错误,这使得它们的行为难以预测地类似于人类。对于商业应用而言,这意味着在人与人工智能代理之间的长时间对话中,最新的输入可能会不成比例地影响 LLM 的推理(尤其是当它与模型的初始响应相矛盾时),从而有可能导致它放弃正确的初始答案。

幸运的是,正如研究报告所指出的那样,我们可以影响 LLM 的记忆,以人类无法做到的方式减少这种偏差。开发人员在创建多轮对话代理时,可以采用管理人工智能上下文的策略。例如,可以定期对冗长的对话进行总结,中立地呈现关键事实和选择,而不考虑是谁做出的决定。总结后就可以开始新的、简洁的对话,为模型提供一个干净的推理平台,减少长时间交流中积累的偏差。

随着 LLM 越来越多地嵌入业务工作流程,了解其决策过程的细节变得至关重要。以这样的研究为基础,可以帮助开发人员预测并纠正这些固有的偏差,从而使应用程序不仅能力更强,而且更可靠、更一致。

相关文章
Multiverse Computing推出免费压缩生成式AI模型 Multiverse Computing推出免费压缩生成式AI模型 大型语言模型面临着一个重大挑战:其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题,旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起,开发者可在Hugging Face平台免费获取Multiverse增强版H
秘密追踪数据揭露人工智能模型被盗事件 秘密追踪数据揭露人工智能模型被盗事件 一种新方法能在数秒内对ChatGPT等模型进行隐形水印处理,无需重新训练,既不会在标准输出中留下痕迹,又能抵御所有实际的去除尝试。 水印技术与"版权诱饵"的关键区别在于:无论可见或隐形的水印,通常都设计为贯穿整个集合(如图像数据集)的持续性威慑手段,以防范随意复制。而虚构条目则是将一小段文本(通常为单词或定义)植入大型通用集合中,旨在证明盗用行为。其原理在于:当作品被直接盗用或作为衍生作品基础时,
人工智能系统被诱骗批准荒谬的科学论文 人工智能系统被诱骗批准荒谬的科学论文 最新研究表明,人工智能系统现已能够生成虚假科学论文,且其他AI模型会将其误认为真实研究。这些伪造的研究绕过了以往有效的检测方法,凸显出科研生态系统可能陷入机器人欺骗机器人的循环漩涡,面临崩溃风险。 具有讽刺意味的是,作为人工智能创新前沿的学术研究领域,正面临着主要由人工智能引发的可信度危机。自四年前机器学习的潜在影响显现以来,其已深刻重塑了研究、投稿和同行评审流程。最新争议涉及低质量调查论文的批量
相关专题推荐
文字转语音 专为阅读障碍设计的顶级AI语音合成应用:助力学生提升学习与阅读效率
专为阅读障碍设计的顶级AI语音合成应用:助力学生提升学习与阅读效率

探索2026年最新精选的高评分AI语音合成(TTS)应用,专为阅读障碍者提供支持。我们的专家评级对比了免费与付费工具,重点介绍了能够提升阅读效率和学习效果的强大功能。探索这些必试的、具有革命性意义的解决方案,释放学生的潜能。立即访问XIX.AI,开启您的探索之旅。

10 个工具
xix.ai
漫画创作 少年漫画顶级AI生成器:打造高能动作场面与特效
少年漫画顶级AI生成器:打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具,助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能,立即开始创作史诗级漫画吧!

15 个工具
xix.ai
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
评论 (3)
0/500
DouglasAnderson
DouglasAnderson 2026-04-23 08:01:00

Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔

CarlGonzalez
CarlGonzalez 2026-03-10 20:01:23

Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?

FrankAllen
FrankAllen 2026-01-16 02:30:34

Interesting study, but honestly not surprising. It's kinda scary how closely AI mirrors human flaws under pressure. Makes me wonder if we're building systems that'll just amplify our own biases in automated form. 🤔

OR