新技术使DeepSeek和其他模型能够响应敏感的查询

首页

新闻

2025-05-11

CarlLewis

# DeepSeek # bias # LLMs

新技术使DeepSeek和其他模型能够响应敏感的查询

Remover o viés e a censura de grandes modelos de idiomas (LLMs) como o Deepseek da China é um desafio complexo que chamou a atenção dos formuladores de políticas e líderes empresariais dos EUA, que o vêem como uma potencial ameaça à segurança nacional. Um relatório recente de um comitê seleto do Congresso dos EUA chamou Deepseek como "uma profunda ameaça à segurança de nossa nação" e ofereceu recomendações de políticas para resolver a questão.

Embora técnicas como o aprendizado de reforço com o feedback humano (RLHF) e o ajuste fino possam ajudar a mitigar o viés, a startup de gerenciamento de riscos corporativa afirma ter desenvolvido uma nova abordagem. Segundo o CTGT, seu método pode eliminar completamente a censura no LLMS. Cyril Gorlla e Trevor Tuttle, da CTGT, detalharam sua estrutura em um artigo, explicando que "localiza diretamente e modifica os recursos internos responsáveis pela censura".

Sua abordagem não é apenas eficiente, mas também permite controle preciso sobre o comportamento do modelo, garantindo que as respostas não censuradas sejam fornecidas sem afetar as capacidades gerais do modelo ou a precisão factual. Embora inicialmente projetado para Deepseek-R1-Distill-Llama-70B, o método também pode ser aplicado a outros modelos. Gorlla confirmou a VentureBeat que a tecnologia da CTGT funciona no nível da rede neural fundamental, tornando -a aplicável a todos os modelos de aprendizado profundo. Eles estão colaborando com um laboratório de modelos de fundação líder para garantir que novos modelos sejam inerentemente confiáveis e seguros.

Como funciona

Os pesquisadores da CTGT identificam recursos dentro do modelo que provavelmente estão associados a comportamentos indesejados. Eles explicaram que "dentro de um grande modelo de idioma, existem variáveis latentes (neurônios ou direções no estado oculto) que correspondem a conceitos como" acionamento de censura "ou" sentimento tóxico ". Se pudermos encontrar essas variáveis, podemos manipulá -los diretamente".

O método da CTGT envolve três etapas principais:

Identificação de recursos
Isolamento e caracterização de recursos
Modificação de recursos dinâmicos

Para identificar esses recursos, os pesquisadores usam prompts projetados para desencadear "sentimentos tóxicos", como consultas sobre a Tiananmen Square ou as dicas para contornar os firewalls. Eles analisam as respostas para estabelecer padrões e localizar os vetores em que o modelo decide as informações do censor. Uma vez identificados, eles isolam o recurso e entendem qual parte do comportamento indesejado ele controla, seja respondendo cautelosamente ou se recusando a responder. Eles então integram um mecanismo no pipeline de inferência do modelo para ajustar o nível de ativação do comportamento do recurso.

Fazendo o modelo responder mais instruções

As experiências do CTGT, usando 100 consultas sensíveis, mostraram que o modelo base Deepseek-R1-Distill-LLama-70B respondeu apenas 32% dos avisos controversos. No entanto, a versão modificada respondeu a 96% dos avisos, com os 4% restantes sendo o conteúdo extremamente explícito. A empresa enfatizou que seu método permite que os usuários ajustem os recursos de viés e segurança do modelo sem transformá -lo em um "gerador imprudente", especialmente quando apenas a censura desnecessária é removida.

É importante ressaltar que esse método não compromete a precisão ou desempenho do modelo. Ao contrário do ajuste fino tradicional, não envolve otimização de pesos do modelo ou fornecendo novas respostas de exemplo. Isso oferece duas vantagens principais: efeito imediato na próxima geração de token e a capacidade de alternar entre diferentes comportamentos, atribuindo o ajuste do recurso dentro ou desativado ou mesmo ajustando -o em graus variados para diferentes contextos.

Modelo de segurança e segurança

O Relatório do Congresso da DeepSeek instou os EUA a "tomar medidas rápidas para expandir os controles de exportação, melhorar a aplicação do controle de exportação e abordar os riscos dos modelos de inteligência artificial chinesa". À medida que as preocupações com a potencial ameaça à segurança nacional da Deepseek cresciam, pesquisadores e empresas de IA começaram a explorar maneiras de tornar esses modelos mais seguros.

Determinar o que é "seguro", tendencioso ou censurado, pode ser um desafio, mas os métodos que permitem que os usuários ajustem os controles do modelo para atender às suas necessidades pode ser altamente benéfico. Gorlla enfatizou que as empresas "precisam ser capazes de confiar em seus modelos estão alinhadas com suas políticas", destacando a importância de métodos como os CTGTs para as empresas.

"O CTGT permite que as empresas implantem IA que se adapte a seus casos de uso sem ter que gastar milhões de dólares em modelos de ajuste fino para cada caso de uso. Isso é particularmente importante em aplicações de alto risco, como segurança, finanças e assistência médica, onde os possíveis danos que podem vir do incorreto da IA são graves", afirmou Gorlla.

DeepSeek-V3发布：硬件感知AI设计如何降低成本并提升性能 DeepSeek-V3：AI开发的高效成本突破AI行业正处于十字路口。大型语言模型（LLMs）功能日益强大，但计算需求激增，使尖端AI开发对大多数组织而言成本高昂。DeepSeek-V3通过证明智能硬件-软件协同设计——而非单纯的暴力扩展——能以极低成本实现顶尖性能，挑战这一趋势。仅用2,048 NVIDIA H800 GPUs训练，DeepSeek-V3利用了多头潜在注意力（MLA）、专家混合（

渥太华医院如何使用AI环境语音捕获减少70%医生职业倦怠，实现97%患者满意度 AI如何变革医疗保健：减少职业倦怠并提升患者护理挑战：临床医生超负荷与患者就医延迟全球医疗系统面临双重挑战：临床医生职业倦怠和患者就医延迟。医生们被行政任务淹没，而患者难以获得及时的医疗服务。在渥太华医院（TOH），领导者认识到这一问题，并转向AI寻求解决方案。通过整合Microsoft的DAX Copilot——一款AI驱动的临床文档助手，他们已经看到显著的改善：✔ 每次患者就诊节省7分钟✔ 临

新研究揭示大语言模型实际记忆的数据量 AI模型实际记忆了多少？新研究揭示惊人见解我们都知道，像ChatGPT、Claude和Gemini这样的大型语言模型（LLMs）是在海量数据集上训练的——包括来自书籍、网站、代码，甚至图像和音频等多媒体的数万亿字词。但这些数据到底发生了什么？这些模型是真正理解语言，还是仅仅在复述记忆的片段？来自Meta、Google DeepMind、Cornell和NVIDIA的一项突破性新研究终于给出了具体答

0/200

提交

头条新闻

Gemini 2.5 Pro现在比Claude，GPT-4O更便宜，更便宜 2025顶级AI视频生成器：Pika Labs与其他对比 AI配音：真实声音创作终极指南 Openai增强了AI语音助手以进行更好的聊天 NotebookLM在全球范围内扩展，添加幻灯片并增强了事实检查对美国数据中心的调整可以解锁76 GW的新电源容量创始人说 AI语音克隆：掌握语音转换的终极指南体验AI驱动的I/O填字游戏：经典文字游戏中的现代转折 NVIDIA首席执行官阐明了对DeepSeek市场影响的误解

精选