选项
首页
新闻
新技术使DeepSeek和其他模型能够响应敏感的查询

新技术使DeepSeek和其他模型能够响应敏感的查询

2025-05-11
61

新技术使DeepSeek和其他模型能够响应敏感的查询

从大型语言模型(LLMs)如中国的DeepSeek中移除偏见和审查是一个复杂挑战,已引起美国政策制定者和商界领袖的关注,他们将其视为潜在的国家安全威胁。美国国会特别委员会的一份近期报告将DeepSeek称为“对我们国家安全的深刻威胁”,并提出了应对这一问题的政策建议。

虽然像基于人类反馈的强化学习(RLHF)和微调等技术可以帮助减轻偏见,但企业风险管理初创公司CTGT声称已开发出一种新方法。据CTGT称,他们的方法可以完全消除LLMs中的审查。CTGT的Cyril Gorlla和Trevor Tuttle在一篇论文中详细介绍了他们的框架,解释说它“直接定位并修改负责审查的内部特征”。

他们的方法不仅高效,还能精确控制模型的行为,确保提供无审查的响应,同时不影响模型的整体能力或事实准确性。尽管最初是为DeepSeek-R1-Distill-Llama-70B设计的,但该方法也可应用于其他模型。Gorlla向VentureBeat确认,CTGT的技术在基础神经网络层面上运行,使其适用于所有深度学习模型。他们正与一家领先的基础模型实验室合作,确保新模型天生可信且安全。

工作原理

CTGT的研究人员识别模型中可能与不良行为相关的特征。他们解释说,“在一个大型语言模型中,存在与‘审查触发’或‘有害情绪’等概念相对应的潜在变量(神经元或隐藏状态中的方向)。如果我们能找到这些变量,就可以直接操作它们。”

CTGT的方法包括三个关键步骤:

  1. 特征识别
  2. 特征隔离与表征
  3. 动态特征修改

为了识别这些特征,研究人员使用设计来触发“有害情绪”的提示,例如关于天安门广场的询问或绕过防火墙的建议。他们分析响应以建立模式,并定位模型决定审查信息的向量。一旦识别出来,他们会隔离该特征并了解它控制的不良行为部分,无论是谨慎回应还是拒绝回答。然后,他们在模型的推理管道中集成一个机制,以调整特征行为的激活水平。

让模型回答更多提示

CTGT的实验使用100个敏感查询,显示基础DeepSeek-R1-Distill-Llama-70B模型仅回答了32%的争议性提示。然而,修改后的版本回应了96%的提示,剩余4%为极其露骨的内容。公司强调,他们的方法允许用户调整模型的偏见和安全功能,而不会使其变成“鲁莽生成器”,特别是在仅移除不必要审查时。

重要的是,这种方法不会损害模型的准确性或性能。与传统微调不同,它不涉及优化模型权重或提供新的示例响应。这带来了两个主要优势:对下一个令牌生成立即生效,以及通过开关特征调整或关闭来在不同行为之间切换,甚至为不同场景调整到不同程度。

模型安全与保障

关于DeepSeek的国会报告敦促美国“迅速采取行动扩大出口管制,改进出口管制执法,并应对来自中国人工智能模型的风险”。随着对DeepSeek潜在国家安全威胁的担忧增加,研究人员和AI公司开始探索使此类模型更安全的方法。

确定什么是“安全”、有偏见或被审查的内容可能具有挑战性,但允许用户根据需要调整模型控制的方法可能非常有益。Gorlla强调,企业“需要能够信任他们的模型与他们的政策保持一致”,突显了像CTGT这样的方法对企业的重要性。

“CTGT使公司能够部署适应其用例的AI,而无需为每个用例花费数百万美元进行模型微调。这在安全、金融和医疗等高风险应用中尤为重要,因为AI故障可能带来的危害非常严重,”Gorlla表示。

相关文章
阿里巴巴的 阿里巴巴的 "零搜索 "人工智能通过自主学习将培训成本降低 88 阿里巴巴的 ZeroSearch:改变人工智能训练效率的游戏规则阿里巴巴集团的研究人员开创了一种突破性的方法,有可能彻底改变人工智能系统学习信息检索的方式,完全绕过成本高昂的商业搜索引擎 API。他们的 "零搜索"(ZeroSearch)技术能让大型语言模型在训练阶段通过模拟环境培养复杂的搜索能力,而非传统的搜索引擎交互。"研究人员在他们最新发表的 arXiv 论文中解释说:"传统的强化学习需要大
Sakana AI 的 TreeQuest 通过多模型协作提升人工智能性能 Sakana AI 的 TreeQuest 通过多模型协作提升人工智能性能 日本人工智能实验室 Sakana AI 公布了一项技术,它能让多个大型语言模型(LLM)协同工作,组成一个高效的人工智能团队。这种方法被命名为Multi-LLM AB-MCTS,它允许模型进行试错,利用它们的独特优势来处理任何单一模型都无法完成的复杂任务。对于企业来说,这种方法提供了建立更强大人工智能系统的途径。企业可以动态地利用各种前沿模型的优势,为每个任务分段分配最佳的人工智能,以实现最佳结果
字节跳动发布Seed-Thinking-v1.5 AI模型以增强推理能力 字节跳动发布Seed-Thinking-v1.5 AI模型以增强推理能力 高级推理AI的竞赛始于2024年9月OpenAI的o1模型,随着2025年1月DeepSeek的R1发布而加速。主要AI开发者现正竞相打造更快、更具成本效益的推理AI模型,通过链式思考过程提供精确、深思熟虑的回答,确保回答前的准确性。字节跳动,TikTok的母公司,推出了Seed-Thinking-v1.5,这是一个在技术论文中概述的新大型语言模型(LLM),旨在提升STEM和通用领域的推理能力。
评论 (1)
0/200
JustinAnderson
JustinAnderson 2025-08-21 13:01:17

¡Vaya! Quitar sesgos a modelos como DeepSeek suena a un puzzle imposible. ¿Realmente pueden hacer que una IA sea neutral? Me preocupa que esto termine siendo una carrera por controlar la narrativa. 😬

返回顶部
OR