选项
首页 新闻 新技术使DeepSeek和其他模型能够响应敏感的查询

新技术使DeepSeek和其他模型能够响应敏感的查询

发布日期 发布日期 2025年05月10日
作者 作者 CarlLewis
浏览量 浏览量 0

从中国的DeepSeek等大型语言模型(LLM)中消除偏见和审查是一个复杂的挑战,引起了美国决策者和商业领袖的关注,他们认为这是潜在的国家安全威胁。美国国会选拔委员会的最新报告将DeepSeek标记为“对我们国家安全的深远威胁”,并提出了解决该问题的政策建议。

尽管从人类反馈(RLHF)中学习的技术和微调可以帮助减轻偏见,但企业风险管理初创公司CTGT声称已经开发了一种新颖的方法。根据CTGT的说法,他们的方法可以完全消除LLM的审查制度。 CTGT的Cyril Gorlla和Trevor Tuttle在论文中详细介绍了他们的框架,并解释说“直接定位并修改了负责审查制度的内部功能”。

他们的方法不仅有效,而且还可以精确控制模型的行为,从而在不影响模型的整体功能或事实准确性的情况下提供未经审查的响应。尽管最初是为DeepSeek-R1-Distill-Lalama-70B设计的,但该方法也可以应用于其他模型。 Gorlla向VentureBeat确认,CTGT的技术在基础神经网络级别上起作用,使其适用于所有深度学习模型。他们正在与领先的基础模型实验室合作,以确保新的模型本质上是值得信赖和安全的。

它如何工作

CTGT的研究人员识别模型中可能与不良行为相关的特征。他们解释说:“在大型语言模型中,存在与“审查触发”或“有毒情感”等概念相对应的潜在变量(隐藏状态中的神经元或方向)。如果我们能找到这些变量,我们可以直接操纵它们。”

CTGT的方法涉及三个关键步骤:

  1. 功能识别
  2. 特征隔离和表征
  3. 动态特征修改

为了识别这些功能,研究人员使用旨在触发“有毒情感”的提示,例如有关天安门广场的询问或绕过防火墙的提示。他们分析了建立模式并找到模型决定审查信息的向量的响应。一旦确定,它们就会隔离该功能,并了解其控制的不必要行为的哪一部分,无论是谨慎的回答还是拒绝回答。然后,他们将机制集成到模型的推理管道中,以调整功能行为的激活水平。

使模型回答更多提示

CTGT使用100个敏感查询的实验表明,基本DeepSeek-R1-Distill-Lalama-70b模型仅回答了有争议的提示的32%。但是,修改后的版本响应了96%的提示,其余4%是非常明确的内容。该公司强调,他们的方法允许用户调整模型的偏见和安全功能而不将其变成“鲁ck发电机”,尤其是在删除不必要的审查时。

重要的是,此方法不会损害模型的准确性或性能。与传统的微调不同,它不涉及优化模型权重或提供新的示例响应。这提供了两个主要优势:立即对下一代代币产生产生影响,以及通过打开或关闭功能调整,甚至可以在不同程度上对不同环境进行调整,从而在不同行为之间切换。

模型安全

国会关于DeepSeek的报告敦促美国“采取迅速行动来扩大出口控制,改善出口控制执法并解决中国人工智能模型的风险”。随着对DeepSeek潜在的国家安全威胁的担忧,研究人员和AI公司开始探索使此类模型更安全的方法。

确定偏见或审查的“安全”是具有挑战性的,但是允许用户调整模型控制以适应其需求的方法可能是非常有益的。戈拉拉(Gorlla)强调,企业“需要能够信任自己的模型与其政策保持一致”,这强调了CTGT诸如企业对企业的重要性。

“ CTGT使公司能够部署适应其用例的AI,而不必为每种用例花费数百万美元的微调模型。这在安全,财务和医疗保健等高风险应用程序中尤为重要,在这种高风险应用程序中,AI失败的潜在危害是严重的,” Gorllla表示。”

使命召唤:移动 - 所有工作赎回代码2025年1月

相关文章
Former DeepSeeker and collaborators release new method for training reliable AI agents: RAGEN Former DeepSeeker and collaborators release new method for training reliable AI agents: RAGEN The Year of AI Agents: A Closer Look at 2025's Expectations and Realities2025 was heralded by many experts as the year when AI agents—specialized AI systems powered by advanced large language and multimodal models from companies like OpenAI, Anthropic, Google, and DeepSeek—would finally take center
Open Deep Search arrives to challenge Perplexity and ChatGPT Search Open Deep Search arrives to challenge Perplexity and ChatGPT Search If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
评论 (0)
0/200
返回顶部
OR