选项
首页
新闻
新技术使DeepSeek和其他模型能够响应敏感的查询

新技术使DeepSeek和其他模型能够响应敏感的查询

2025-05-11
126

新技术使DeepSeek和其他模型能够响应敏感的查询

从大型语言模型(LLMs)如中国的DeepSeek中移除偏见和审查是一个复杂挑战,已引起美国政策制定者和商界领袖的关注,他们将其视为潜在的国家安全威胁。美国国会特别委员会的一份近期报告将DeepSeek称为“对我们国家安全的深刻威胁”,并提出了应对这一问题的政策建议。

虽然像基于人类反馈的强化学习(RLHF)和微调等技术可以帮助减轻偏见,但企业风险管理初创公司CTGT声称已开发出一种新方法。据CTGT称,他们的方法可以完全消除LLMs中的审查。CTGT的Cyril Gorlla和Trevor Tuttle在一篇论文中详细介绍了他们的框架,解释说它“直接定位并修改负责审查的内部特征”。

他们的方法不仅高效,还能精确控制模型的行为,确保提供无审查的响应,同时不影响模型的整体能力或事实准确性。尽管最初是为DeepSeek-R1-Distill-Llama-70B设计的,但该方法也可应用于其他模型。Gorlla向VentureBeat确认,CTGT的技术在基础神经网络层面上运行,使其适用于所有深度学习模型。他们正与一家领先的基础模型实验室合作,确保新模型天生可信且安全。

工作原理

CTGT的研究人员识别模型中可能与不良行为相关的特征。他们解释说,“在一个大型语言模型中,存在与‘审查触发’或‘有害情绪’等概念相对应的潜在变量(神经元或隐藏状态中的方向)。如果我们能找到这些变量,就可以直接操作它们。”

CTGT的方法包括三个关键步骤:

  1. 特征识别
  2. 特征隔离与表征
  3. 动态特征修改

为了识别这些特征,研究人员使用设计来触发“有害情绪”的提示,例如关于天安门广场的询问或绕过防火墙的建议。他们分析响应以建立模式,并定位模型决定审查信息的向量。一旦识别出来,他们会隔离该特征并了解它控制的不良行为部分,无论是谨慎回应还是拒绝回答。然后,他们在模型的推理管道中集成一个机制,以调整特征行为的激活水平。

让模型回答更多提示

CTGT的实验使用100个敏感查询,显示基础DeepSeek-R1-Distill-Llama-70B模型仅回答了32%的争议性提示。然而,修改后的版本回应了96%的提示,剩余4%为极其露骨的内容。公司强调,他们的方法允许用户调整模型的偏见和安全功能,而不会使其变成“鲁莽生成器”,特别是在仅移除不必要审查时。

重要的是,这种方法不会损害模型的准确性或性能。与传统微调不同,它不涉及优化模型权重或提供新的示例响应。这带来了两个主要优势:对下一个令牌生成立即生效,以及通过开关特征调整或关闭来在不同行为之间切换,甚至为不同场景调整到不同程度。

模型安全与保障

关于DeepSeek的国会报告敦促美国“迅速采取行动扩大出口管制,改进出口管制执法,并应对来自中国人工智能模型的风险”。随着对DeepSeek潜在国家安全威胁的担忧增加,研究人员和AI公司开始探索使此类模型更安全的方法。

确定什么是“安全”、有偏见或被审查的内容可能具有挑战性,但允许用户根据需要调整模型控制的方法可能非常有益。Gorlla强调,企业“需要能够信任他们的模型与他们的政策保持一致”,突显了像CTGT这样的方法对企业的重要性。

“CTGT使公司能够部署适应其用例的AI,而无需为每个用例花费数百万美元进行模型微调。这在安全、金融和医疗等高风险应用中尤为重要,因为AI故障可能带来的危害非常严重,”Gorlla表示。

相关文章
DeepSeek 推出可与前沿系统媲美的人工智能模型 DeepSeek 推出可与前沿系统媲美的人工智能模型 中国人工智能实验室DeepSeek发布了其最新大型语言模型DeepSeek V4的两个预览版本。作为对去年V3.2模型及其配套的R1推理模型的备受期待的更新,该模型曾在人工智能界引起了巨大反响。该公司表示,DeepSeek V4 Flash和V4 Pro均为专家混合模型,各自拥有100万令牌的上下文窗口——足以处理提示词中的庞大代码库或文档。这种专家混合方法通过针对每项任务仅激活特定参数子集,从而
Multiverse Computing推出免费压缩生成式AI模型 Multiverse Computing推出免费压缩生成式AI模型 大型语言模型面临着一个重大挑战:其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题,旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起,开发者可在Hugging Face平台免费获取Multiverse增强版H
秘密追踪数据揭露人工智能模型被盗事件 秘密追踪数据揭露人工智能模型被盗事件 一种新方法能在数秒内对ChatGPT等模型进行隐形水印处理,无需重新训练,既不会在标准输出中留下痕迹,又能抵御所有实际的去除尝试。 水印技术与"版权诱饵"的关键区别在于:无论可见或隐形的水印,通常都设计为贯穿整个集合(如图像数据集)的持续性威慑手段,以防范随意复制。而虚构条目则是将一小段文本(通常为单词或定义)植入大型通用集合中,旨在证明盗用行为。其原理在于:当作品被直接盗用或作为衍生作品基础时,
相关专题推荐
写作 最佳AI仙侠与武侠助手:创作史诗般的修仙历程与武打场面
最佳AI仙侠与武侠助手:创作史诗般的修仙历程与武打场面

探索2026年最优秀的AI助手,助您创作史诗级的仙侠与武侠故事。XIX.AI精心整理的这份清单汇集了广受好评、能彻底改变创作格局的工具,助您驾驭修仙进阶与武术动作设计。通过实际测试对比免费与付费选项。释放您的创作潜能,今天就开始写作吧!

10 个工具
xix.ai
代码 AI移动应用开发工具:根据提示生成跨平台的Flutter与React Native代码
AI移动应用开发工具:根据提示生成跨平台的Flutter与React Native代码

探索2026年最适合Flutter和React Native的最佳AI移动应用开发工具。我们精心挑选的这些高评分工具能够提供强大的功能,帮助您根据提示生成跨平台代码。通过实际测试来对比免费选项和付费选项,让开发更加高效,从而打造出更出色的应用程序。现在就访问XIX.AI查看排名吧!

10 个工具
xix.ai
代码 最佳 AI Chrome 扩展程序生成工具:无需编程经验即可创建自定义浏览器插件
最佳 AI Chrome 扩展程序生成工具:无需编程经验即可创建自定义浏览器插件

在 XIX.AI 上探索 2026 年最佳 AI Chrome 扩展程序生成器。我们精心挑选的这份清单汇集了广受好评、不容错过的工具,让您无需编写代码即可创建自定义浏览器插件。对比免费与付费选项,查看实际测试结果,并释放您的工作效率。立即查看最新排行榜,找到最适合您的工具!

10 个工具
xix.ai
文字转语音 最佳人工智能多语言文本转语音技术:能够生成50多种语言的逼真原声发音
最佳人工智能多语言文本转语音技术:能够生成50多种语言的逼真原声发音

探索2026年最优秀的人工智能多语言文本转语音工具,这些工具能够生成50多种语言中具有真实母语口音的语音。查看我们精心挑选的排名榜单,了解免费版本与付费版本的差异,并通过实际测试来验证它们的效果。在XIX.AI上找到最适合你的语音工具,立即开启全球交流的新篇章吧。

10 个工具
xix.ai
会议助理 最适合提升协作效率的最佳人工智能会议自动化工具
最适合提升协作效率的最佳人工智能会议自动化工具

探索2026年最新评选出的顶级AI会议自动化工具,让协作变得更智能、更高效。我们精心挑选的这些工具能够有效实现笔记、总结和待办事项的自动化处理。通过实际测试和每周更新的排名,您可以了解免费选项与付费选项的差异。立即访问XIX.AI,发现最适合您需求的工具,提升团队生产力吧。

10 个工具
xix.ai
提示词 适用于基础设施即代码的 AI 提示:安全部署 Terraform 和 Docker 配置
适用于基础设施即代码的 AI 提示:安全部署 Terraform 和 Docker 配置

探索 2026 年最新、评价最高的“基础设施即代码”(Infrastructure-as-Code)AI 提示词。XIX.AI 精心挑选的提示词集可助您安全部署 Terraform 和 Docker 配置、自动化云环境搭建,并提升 DevOps 工作效率。通过实际测试对比免费与付费选项。立即探索,释放您的 AI 优势。

10 个工具
xix.ai
评论 (4)
0/500
CarlGarcia
CarlGarcia 2026-03-23 08:01:13

É impressionante a rapidez com que questões de 'segurança nacional' aparecem quando se fala de inovações vindas de outros países. Este relatório sobre o DeepSeek soa mais como justificativa para manter uma vantagem tecnológica do que uma genuína preocupação ética. Já parou para pensar se a 'neutralidade' que buscam não é apenas uma forma de censura disfarçada? 🤔 A corrida pela IA está mesmo acirrada.

GaryGonzalez
GaryGonzalez 2025-12-25 22:30:40

この記事を読んで、AIのバイアス除去って本当に可能なのかな?技術的には興味深いけど、各国の規制や価値観の違いを考えると、完全に中立なAIを作るのは無理なんじゃないかって思う。DeepSeekが米国で国家安全保障上の脅威と見なされているって…地政学的な要素が技術開発にこんなに影響するなんて。🤔

CharlesThomas
CharlesThomas 2025-12-05 04:30:40

この手法、完全にセンシティブなクエリに対して何でも返信し始めたら怖くない? 倫理的なライン越えてる気がするけど、政治的な発言の規制が緩和されるのは歓迎かも🤔 でもAIが中立を装いながら偏った情報を流す可能性も…

JustinAnderson
JustinAnderson 2025-08-21 13:01:17

¡Vaya! Quitar sesgos a modelos como DeepSeek suena a un puzzle imposible. ¿Realmente pueden hacer que una IA sea neutral? Me preocupa que esto termine siendo una carrera por controlar la narrativa. 😬

OR