新技术使DeepSeek和其他模型能够响应敏感的查询

从大型语言模型(LLMs)如中国的DeepSeek中移除偏见和审查是一个复杂挑战,已引起美国政策制定者和商界领袖的关注,他们将其视为潜在的国家安全威胁。美国国会特别委员会的一份近期报告将DeepSeek称为“对我们国家安全的深刻威胁”,并提出了应对这一问题的政策建议。
虽然像基于人类反馈的强化学习(RLHF)和微调等技术可以帮助减轻偏见,但企业风险管理初创公司CTGT声称已开发出一种新方法。据CTGT称,他们的方法可以完全消除LLMs中的审查。CTGT的Cyril Gorlla和Trevor Tuttle在一篇论文中详细介绍了他们的框架,解释说它“直接定位并修改负责审查的内部特征”。
他们的方法不仅高效,还能精确控制模型的行为,确保提供无审查的响应,同时不影响模型的整体能力或事实准确性。尽管最初是为DeepSeek-R1-Distill-Llama-70B设计的,但该方法也可应用于其他模型。Gorlla向VentureBeat确认,CTGT的技术在基础神经网络层面上运行,使其适用于所有深度学习模型。他们正与一家领先的基础模型实验室合作,确保新模型天生可信且安全。
工作原理
CTGT的研究人员识别模型中可能与不良行为相关的特征。他们解释说,“在一个大型语言模型中,存在与‘审查触发’或‘有害情绪’等概念相对应的潜在变量(神经元或隐藏状态中的方向)。如果我们能找到这些变量,就可以直接操作它们。”
CTGT的方法包括三个关键步骤:
- 特征识别
- 特征隔离与表征
- 动态特征修改
为了识别这些特征,研究人员使用设计来触发“有害情绪”的提示,例如关于天安门广场的询问或绕过防火墙的建议。他们分析响应以建立模式,并定位模型决定审查信息的向量。一旦识别出来,他们会隔离该特征并了解它控制的不良行为部分,无论是谨慎回应还是拒绝回答。然后,他们在模型的推理管道中集成一个机制,以调整特征行为的激活水平。
让模型回答更多提示
CTGT的实验使用100个敏感查询,显示基础DeepSeek-R1-Distill-Llama-70B模型仅回答了32%的争议性提示。然而,修改后的版本回应了96%的提示,剩余4%为极其露骨的内容。公司强调,他们的方法允许用户调整模型的偏见和安全功能,而不会使其变成“鲁莽生成器”,特别是在仅移除不必要审查时。
重要的是,这种方法不会损害模型的准确性或性能。与传统微调不同,它不涉及优化模型权重或提供新的示例响应。这带来了两个主要优势:对下一个令牌生成立即生效,以及通过开关特征调整或关闭来在不同行为之间切换,甚至为不同场景调整到不同程度。
模型安全与保障
关于DeepSeek的国会报告敦促美国“迅速采取行动扩大出口管制,改进出口管制执法,并应对来自中国人工智能模型的风险”。随着对DeepSeek潜在国家安全威胁的担忧增加,研究人员和AI公司开始探索使此类模型更安全的方法。
确定什么是“安全”、有偏见或被审查的内容可能具有挑战性,但允许用户根据需要调整模型控制的方法可能非常有益。Gorlla强调,企业“需要能够信任他们的模型与他们的政策保持一致”,突显了像CTGT这样的方法对企业的重要性。
“CTGT使公司能够部署适应其用例的AI,而无需为每个用例花费数百万美元进行模型微调。这在安全、金融和医疗等高风险应用中尤为重要,因为AI故障可能带来的危害非常严重,”Gorlla表示。
相关文章
DeepSeek 推出可与前沿系统媲美的人工智能模型
中国人工智能实验室DeepSeek发布了其最新大型语言模型DeepSeek V4的两个预览版本。作为对去年V3.2模型及其配套的R1推理模型的备受期待的更新,该模型曾在人工智能界引起了巨大反响。该公司表示,DeepSeek V4 Flash和V4 Pro均为专家混合模型,各自拥有100万令牌的上下文窗口——足以处理提示词中的庞大代码库或文档。这种专家混合方法通过针对每项任务仅激活特定参数子集,从而
Multiverse Computing推出免费压缩生成式AI模型
大型语言模型面临着一个重大挑战:其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题,旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起,开发者可在Hugging Face平台免费获取Multiverse增强版H
秘密追踪数据揭露人工智能模型被盗事件
一种新方法能在数秒内对ChatGPT等模型进行隐形水印处理,无需重新训练,既不会在标准输出中留下痕迹,又能抵御所有实际的去除尝试。 水印技术与"版权诱饵"的关键区别在于:无论可见或隐形的水印,通常都设计为贯穿整个集合(如图像数据集)的持续性威慑手段,以防范随意复制。而虚构条目则是将一小段文本(通常为单词或定义)植入大型通用集合中,旨在证明盗用行为。其原理在于:当作品被直接盗用或作为衍生作品基础时,
相关专题推荐
评论 (4)
0/500
É impressionante a rapidez com que questões de 'segurança nacional' aparecem quando se fala de inovações vindas de outros países. Este relatório sobre o DeepSeek soa mais como justificativa para manter uma vantagem tecnológica do que uma genuína preocupação ética. Já parou para pensar se a 'neutralidade' que buscam não é apenas uma forma de censura disfarçada? 🤔 A corrida pela IA está mesmo acirrada.
この記事を読んで、AIのバイアス除去って本当に可能なのかな?技術的には興味深いけど、各国の規制や価値観の違いを考えると、完全に中立なAIを作るのは無理なんじゃないかって思う。DeepSeekが米国で国家安全保障上の脅威と見なされているって…地政学的な要素が技術開発にこんなに影響するなんて。🤔
この手法、完全にセンシティブなクエリに対して何でも返信し始めたら怖くない? 倫理的なライン越えてる気がするけど、政治的な発言の規制が緩和されるのは歓迎かも🤔 でもAIが中立を装いながら偏った情報を流す可能性も…

从大型语言模型(LLMs)如中国的DeepSeek中移除偏见和审查是一个复杂挑战,已引起美国政策制定者和商界领袖的关注,他们将其视为潜在的国家安全威胁。美国国会特别委员会的一份近期报告将DeepSeek称为“对我们国家安全的深刻威胁”,并提出了应对这一问题的政策建议。
虽然像基于人类反馈的强化学习(RLHF)和微调等技术可以帮助减轻偏见,但企业风险管理初创公司CTGT声称已开发出一种新方法。据CTGT称,他们的方法可以完全消除LLMs中的审查。CTGT的Cyril Gorlla和Trevor Tuttle在一篇论文中详细介绍了他们的框架,解释说它“直接定位并修改负责审查的内部特征”。
他们的方法不仅高效,还能精确控制模型的行为,确保提供无审查的响应,同时不影响模型的整体能力或事实准确性。尽管最初是为DeepSeek-R1-Distill-Llama-70B设计的,但该方法也可应用于其他模型。Gorlla向VentureBeat确认,CTGT的技术在基础神经网络层面上运行,使其适用于所有深度学习模型。他们正与一家领先的基础模型实验室合作,确保新模型天生可信且安全。
工作原理
CTGT的研究人员识别模型中可能与不良行为相关的特征。他们解释说,“在一个大型语言模型中,存在与‘审查触发’或‘有害情绪’等概念相对应的潜在变量(神经元或隐藏状态中的方向)。如果我们能找到这些变量,就可以直接操作它们。”
CTGT的方法包括三个关键步骤:
- 特征识别
- 特征隔离与表征
- 动态特征修改
为了识别这些特征,研究人员使用设计来触发“有害情绪”的提示,例如关于天安门广场的询问或绕过防火墙的建议。他们分析响应以建立模式,并定位模型决定审查信息的向量。一旦识别出来,他们会隔离该特征并了解它控制的不良行为部分,无论是谨慎回应还是拒绝回答。然后,他们在模型的推理管道中集成一个机制,以调整特征行为的激活水平。
让模型回答更多提示
CTGT的实验使用100个敏感查询,显示基础DeepSeek-R1-Distill-Llama-70B模型仅回答了32%的争议性提示。然而,修改后的版本回应了96%的提示,剩余4%为极其露骨的内容。公司强调,他们的方法允许用户调整模型的偏见和安全功能,而不会使其变成“鲁莽生成器”,特别是在仅移除不必要审查时。
重要的是,这种方法不会损害模型的准确性或性能。与传统微调不同,它不涉及优化模型权重或提供新的示例响应。这带来了两个主要优势:对下一个令牌生成立即生效,以及通过开关特征调整或关闭来在不同行为之间切换,甚至为不同场景调整到不同程度。
模型安全与保障
关于DeepSeek的国会报告敦促美国“迅速采取行动扩大出口管制,改进出口管制执法,并应对来自中国人工智能模型的风险”。随着对DeepSeek潜在国家安全威胁的担忧增加,研究人员和AI公司开始探索使此类模型更安全的方法。
确定什么是“安全”、有偏见或被审查的内容可能具有挑战性,但允许用户根据需要调整模型控制的方法可能非常有益。Gorlla强调,企业“需要能够信任他们的模型与他们的政策保持一致”,突显了像CTGT这样的方法对企业的重要性。
“CTGT使公司能够部署适应其用例的AI,而无需为每个用例花费数百万美元进行模型微调。这在安全、金融和医疗等高风险应用中尤为重要,因为AI故障可能带来的危害非常严重,”Gorlla表示。
DeepSeek 推出可与前沿系统媲美的人工智能模型
中国人工智能实验室DeepSeek发布了其最新大型语言模型DeepSeek V4的两个预览版本。作为对去年V3.2模型及其配套的R1推理模型的备受期待的更新,该模型曾在人工智能界引起了巨大反响。该公司表示,DeepSeek V4 Flash和V4 Pro均为专家混合模型,各自拥有100万令牌的上下文窗口——足以处理提示词中的庞大代码库或文档。这种专家混合方法通过针对每项任务仅激活特定参数子集,从而
Multiverse Computing推出免费压缩生成式AI模型
大型语言模型面临着一个重大挑战:其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题,旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起,开发者可在Hugging Face平台免费获取Multiverse增强版H
秘密追踪数据揭露人工智能模型被盗事件
一种新方法能在数秒内对ChatGPT等模型进行隐形水印处理,无需重新训练,既不会在标准输出中留下痕迹,又能抵御所有实际的去除尝试。 水印技术与"版权诱饵"的关键区别在于:无论可见或隐形的水印,通常都设计为贯穿整个集合(如图像数据集)的持续性威慑手段,以防范随意复制。而虚构条目则是将一小段文本(通常为单词或定义)植入大型通用集合中,旨在证明盗用行为。其原理在于:当作品被直接盗用或作为衍生作品基础时,
É impressionante a rapidez com que questões de 'segurança nacional' aparecem quando se fala de inovações vindas de outros países. Este relatório sobre o DeepSeek soa mais como justificativa para manter uma vantagem tecnológica do que uma genuína preocupação ética. Já parou para pensar se a 'neutralidade' que buscam não é apenas uma forma de censura disfarçada? 🤔 A corrida pela IA está mesmo acirrada.
この記事を読んで、AIのバイアス除去って本当に可能なのかな?技術的には興味深いけど、各国の規制や価値観の違いを考えると、完全に中立なAIを作るのは無理なんじゃないかって思う。DeepSeekが米国で国家安全保障上の脅威と見なされているって…地政学的な要素が技術開発にこんなに影響するなんて。🤔
この手法、完全にセンシティブなクエリに対して何でも返信し始めたら怖くない? 倫理的なライン越えてる気がするけど、政治的な発言の規制が緩和されるのは歓迎かも🤔 でもAIが中立を装いながら偏った情報を流す可能性も…





首页






