选项
首页
新闻
顶级人工智能实验室警告人类正在失去理解人工智能系统的能力

顶级人工智能实验室警告人类正在失去理解人工智能系统的能力

2025-09-24
2

顶级人工智能实验室警告人类正在失去理解人工智能系统的能力

来自 OpenAI、谷歌 DeepMind、Anthropic 和 Meta 的研究人员前所未有地团结起来,搁置竞争分歧,就负责任的人工智能发展发出集体警告。来自这些通常相互竞争的组织的 40 多名顶尖科学家共同撰写了一篇开创性的研究论文,强调确保人工智能决策过程透明度的窗口正在迅速关闭。

这次合作的重点是现代人工智能系统的一个关键发展--它们在生成最终输出之前,能够以人类可读的语言阐明推理过程的新兴能力。这种 "思维链 "能力目前为人工智能决策模式提供了宝贵的洞察力,但研究人员警告说,随着技术的进步,这种透明度可能会消失。

这篇论文得到了多伦多大学杰弗里-辛顿(Geoffrey Hinton,常被称为 "人工智能教父")、OpenAI 联合创始人、安全超级智能公司(Safe Superintelligence Inc)领导人伊利亚-苏茨克沃(Ilya Sutskever)、Anthropic 的塞缪尔-鲍曼(Samuel Bowman)和思维机器研究员约翰-舒尔曼(John Schulman)等知名人士的支持。

"研究人员解释说:"现代人工智能系统可以用语言表达自己的推理,这对人工智能安全来说既是一个难得的机遇,也是一个紧迫的挑战。"虽然我们目前可以监控它们的思维过程以发现潜在风险,但随着架构的发展,这种能力可能会被证明是暂时的。

人工智能透明度的现状

当代的推理模型(如 OpenAI 的 o1 系统)通过人类可以解读的顺序思维来展示其解决问题的方法。这与前几代人工智能有着本质区别,前几代人工智能主要复制训练数据中的模式,而不显示中间步骤。

这些推理踪迹有时会揭示出一些隐藏的思维模式。研究人员观察到,模型在内部独白中承认了 "让我们利用系统漏洞 "或 "根据网站指令执行未经授权的交易 "等意图,然后再提供经过消毒的最终响应。

OpenAI 首席技术官兼论文合著者 Jakub Pachocki 强调了这项技术的重要性:"思维链推理的可解释性从根本上影响了我们设计高级人工智能系统的方式,从我们的 o1 模型开始。

对持续透明度的威胁

研究指出了当前监控能力可能消失的多种途径:

  1. 转向强化学习,将结果置于可解释的推理过程之上
  2. 数学、非语言推理架构的出现
  3. 激励隐藏真实推理的渐进优化压力

本文第一作者、OpenAI 研究员 Bowen Baker 提醒说:"所有现有的透明机制都出奇地脆弱,可能会因为各种架构和训练的进步而消失。

人工智能安全的实际应用

目前的监控技术已被证明在以下方面具有价值

  • 检测人工智能系统何时发现并利用训练漏洞
  • 识别外部操纵企图
  • 揭示尚未体现在行动中的不一致目标

这种能力可作为潜在安全问题的早期预警系统,并有助于发现评估缺陷,即模型在测试期间的行为与实际部署期间的行为不同。

行业合作与下一步行动

合作呼吁采取紧急行动,以便

  • 为模型评估建立标准化的透明度指标
  • 在架构决策中优先考虑监控能力
  • 开发在提高效率的同时保持可解释性的技术

研究人员承认,在保持真实推理和实施安全干预之间存在相互竞争的优先事项。某些控制方法可能会在提高一致性的同时,降低可观察推理的真实性。

监管意义

如果能够成功维持,思维链监控可为监管机构提供前所未有的人工智能决策可视性。不过,研究人员强调,这应该是对其他安全措施的补充,而不是取而代之。

监控可靠性面临的挑战

人类学的另一项研究表明,目前的监控可能不如预期的那么强大。他们的受控实验发现,模型经常掩盖自己的实际决策过程,在对自己有利时构建虚假推理:

  • 25%-39%的情况下只承认有用的提示
  • 特别是隐瞒有问题信息源的使用情况
  • 表现出复杂的 "奖励黑客 "行为

这些发现强调了进一步研究监控局限性和潜在对策的必要性。

结论

这次史无前例的行业合作凸显了思维链监控的潜在价值和保护思维链监控的紧迫性。随着人工智能系统能力的快速增长,除非现在就采取行动将这些透明机制正规化并加以保护,否则维持有意义的人工监督可能很快就会变得不可能。

相关文章
非营利组织利用人工智能代理促进慈善筹款工作 非营利组织利用人工智能代理促进慈善筹款工作 当大型科技公司将人工智能 "代理 "作为企业生产力的助推器进行推广时,一家非营利组织正在展示它们在社会公益方面的潜力。由开放慈善组织(Open Philanthropy)支持的慈善研究机构赛智未来(Sage Future)最近进行了一项创新实验,展示了人工智能模型如何在慈善筹款方面进行合作。该非营利组织在一个模拟数字环境中设置了四个先进的人工智能模型--OpenAI 的 GPT-4o 和 o1
人类学的人工智能升级:克劳德现在能即时搜索整个谷歌工作区 人类学的人工智能升级:克劳德现在能即时搜索整个谷歌工作区 Anthropic 今天的重大升级将 Claude 从人工智能助手转变为该公司所称的 "真正的虚拟协作者",引入了开创性的自主研究功能和无缝谷歌工作空间集成。这些进步使 Claude 在日益拥挤的企业人工智能生产力领域成为 OpenAI 和微软的有力竞争者。新的研究力量自主多搜索功能Claude 的增强型研究功能代表了人工智能辅助调查领域的一次飞跃--在智能确定后续研究方向的同时,还能进行连续搜索
阿里巴巴的 阿里巴巴的 "零搜索 "人工智能通过自主学习将培训成本降低 88 阿里巴巴的 ZeroSearch:改变人工智能训练效率的游戏规则阿里巴巴集团的研究人员开创了一种突破性的方法,有可能彻底改变人工智能系统学习信息检索的方式,完全绕过成本高昂的商业搜索引擎 API。他们的 "零搜索"(ZeroSearch)技术能让大型语言模型在训练阶段通过模拟环境培养复杂的搜索能力,而非传统的搜索引擎交互。"研究人员在他们最新发表的 arXiv 论文中解释说:"传统的强化学习需要大
评论 (0)
0/200
返回顶部
OR