La nueva técnica permite que Deepseek y otros modelos respondan a consultas sensibles

Remover o viés e a censura de grandes modelos de idiomas (LLMs) como o Deepseek da China é um desafio complexo que chamou a atenção dos formuladores de políticas e líderes empresariais dos EUA, que o vêem como uma potencial ameaça à segurança nacional. Um relatório recente de um comitê seleto do Congresso dos EUA chamou Deepseek como "uma profunda ameaça à segurança de nossa nação" e ofereceu recomendações de políticas para resolver a questão.
Embora técnicas como o aprendizado de reforço com o feedback humano (RLHF) e o ajuste fino possam ajudar a mitigar o viés, a startup de gerenciamento de riscos corporativa afirma ter desenvolvido uma nova abordagem. Segundo o CTGT, seu método pode eliminar completamente a censura no LLMS. Cyril Gorlla e Trevor Tuttle, da CTGT, detalharam sua estrutura em um artigo, explicando que "localiza diretamente e modifica os recursos internos responsáveis pela censura".
Sua abordagem não é apenas eficiente, mas também permite controle preciso sobre o comportamento do modelo, garantindo que as respostas não censuradas sejam fornecidas sem afetar as capacidades gerais do modelo ou a precisão factual. Embora inicialmente projetado para Deepseek-R1-Distill-Llama-70B, o método também pode ser aplicado a outros modelos. Gorlla confirmou a VentureBeat que a tecnologia da CTGT funciona no nível da rede neural fundamental, tornando -a aplicável a todos os modelos de aprendizado profundo. Eles estão colaborando com um laboratório de modelos de fundação líder para garantir que novos modelos sejam inerentemente confiáveis e seguros.
Como funciona
Os pesquisadores da CTGT identificam recursos dentro do modelo que provavelmente estão associados a comportamentos indesejados. Eles explicaram que "dentro de um grande modelo de idioma, existem variáveis latentes (neurônios ou direções no estado oculto) que correspondem a conceitos como" acionamento de censura "ou" sentimento tóxico ". Se pudermos encontrar essas variáveis, podemos manipulá -los diretamente".
O método da CTGT envolve três etapas principais:
- Identificação de recursos
- Isolamento e caracterização de recursos
- Modificação de recursos dinâmicos
Para identificar esses recursos, os pesquisadores usam prompts projetados para desencadear "sentimentos tóxicos", como consultas sobre a Tiananmen Square ou as dicas para contornar os firewalls. Eles analisam as respostas para estabelecer padrões e localizar os vetores em que o modelo decide as informações do censor. Uma vez identificados, eles isolam o recurso e entendem qual parte do comportamento indesejado ele controla, seja respondendo cautelosamente ou se recusando a responder. Eles então integram um mecanismo no pipeline de inferência do modelo para ajustar o nível de ativação do comportamento do recurso.
Fazendo o modelo responder mais instruções
As experiências do CTGT, usando 100 consultas sensíveis, mostraram que o modelo base Deepseek-R1-Distill-LLama-70B respondeu apenas 32% dos avisos controversos. No entanto, a versão modificada respondeu a 96% dos avisos, com os 4% restantes sendo o conteúdo extremamente explícito. A empresa enfatizou que seu método permite que os usuários ajustem os recursos de viés e segurança do modelo sem transformá -lo em um "gerador imprudente", especialmente quando apenas a censura desnecessária é removida.
É importante ressaltar que esse método não compromete a precisão ou desempenho do modelo. Ao contrário do ajuste fino tradicional, não envolve otimização de pesos do modelo ou fornecendo novas respostas de exemplo. Isso oferece duas vantagens principais: efeito imediato na próxima geração de token e a capacidade de alternar entre diferentes comportamentos, atribuindo o ajuste do recurso dentro ou desativado ou mesmo ajustando -o em graus variados para diferentes contextos.
Modelo de segurança e segurança
O Relatório do Congresso da DeepSeek instou os EUA a "tomar medidas rápidas para expandir os controles de exportação, melhorar a aplicação do controle de exportação e abordar os riscos dos modelos de inteligência artificial chinesa". À medida que as preocupações com a potencial ameaça à segurança nacional da Deepseek cresciam, pesquisadores e empresas de IA começaram a explorar maneiras de tornar esses modelos mais seguros.
Determinar o que é "seguro", tendencioso ou censurado, pode ser um desafio, mas os métodos que permitem que os usuários ajustem os controles do modelo para atender às suas necessidades pode ser altamente benéfico. Gorlla enfatizou que as empresas "precisam ser capazes de confiar em seus modelos estão alinhadas com suas políticas", destacando a importância de métodos como os CTGTs para as empresas.
"O CTGT permite que as empresas implantem IA que se adapte a seus casos de uso sem ter que gastar milhões de dólares em modelos de ajuste fino para cada caso de uso. Isso é particularmente importante em aplicações de alto risco, como segurança, finanças e assistência médica, onde os possíveis danos que podem vir do incorreto da IA são graves", afirmou Gorlla.
Artículo relacionado
New open source AI company Deep Cogito releases first models and they’re already topping the charts
Deep Cogito Emerges with Revolutionary AI ModelsIn a groundbreaking move, Deep Cogito, a cutting-edge AI research startup located in San Francisco, has officially unveiled its firs
DeepSeek-GRM: Revolutionizing Scalable, Cost-Efficient AI for Businesses
If you're running a business, you know how tough it can be to integrate Artificial Intelligence (AI) into your operations. The high costs and technical complexity often put advance
Ex-OpenAI CEO and power users sound alarm over AI sycophancy and flattery of users
The Unsettling Reality of Overly Agreeable AIImagine an AI assistant that agrees with everything you say, no matter how outlandish or harmful your ideas might be. It sounds like a
comentario (0)
0/200
Remover o viés e a censura de grandes modelos de idiomas (LLMs) como o Deepseek da China é um desafio complexo que chamou a atenção dos formuladores de políticas e líderes empresariais dos EUA, que o vêem como uma potencial ameaça à segurança nacional. Um relatório recente de um comitê seleto do Congresso dos EUA chamou Deepseek como "uma profunda ameaça à segurança de nossa nação" e ofereceu recomendações de políticas para resolver a questão.
Embora técnicas como o aprendizado de reforço com o feedback humano (RLHF) e o ajuste fino possam ajudar a mitigar o viés, a startup de gerenciamento de riscos corporativa afirma ter desenvolvido uma nova abordagem. Segundo o CTGT, seu método pode eliminar completamente a censura no LLMS. Cyril Gorlla e Trevor Tuttle, da CTGT, detalharam sua estrutura em um artigo, explicando que "localiza diretamente e modifica os recursos internos responsáveis pela censura".
Sua abordagem não é apenas eficiente, mas também permite controle preciso sobre o comportamento do modelo, garantindo que as respostas não censuradas sejam fornecidas sem afetar as capacidades gerais do modelo ou a precisão factual. Embora inicialmente projetado para Deepseek-R1-Distill-Llama-70B, o método também pode ser aplicado a outros modelos. Gorlla confirmou a VentureBeat que a tecnologia da CTGT funciona no nível da rede neural fundamental, tornando -a aplicável a todos os modelos de aprendizado profundo. Eles estão colaborando com um laboratório de modelos de fundação líder para garantir que novos modelos sejam inerentemente confiáveis e seguros.
Como funciona
Os pesquisadores da CTGT identificam recursos dentro do modelo que provavelmente estão associados a comportamentos indesejados. Eles explicaram que "dentro de um grande modelo de idioma, existem variáveis latentes (neurônios ou direções no estado oculto) que correspondem a conceitos como" acionamento de censura "ou" sentimento tóxico ". Se pudermos encontrar essas variáveis, podemos manipulá -los diretamente".
O método da CTGT envolve três etapas principais:
- Identificação de recursos
- Isolamento e caracterização de recursos
- Modificação de recursos dinâmicos
Para identificar esses recursos, os pesquisadores usam prompts projetados para desencadear "sentimentos tóxicos", como consultas sobre a Tiananmen Square ou as dicas para contornar os firewalls. Eles analisam as respostas para estabelecer padrões e localizar os vetores em que o modelo decide as informações do censor. Uma vez identificados, eles isolam o recurso e entendem qual parte do comportamento indesejado ele controla, seja respondendo cautelosamente ou se recusando a responder. Eles então integram um mecanismo no pipeline de inferência do modelo para ajustar o nível de ativação do comportamento do recurso.
Fazendo o modelo responder mais instruções
As experiências do CTGT, usando 100 consultas sensíveis, mostraram que o modelo base Deepseek-R1-Distill-LLama-70B respondeu apenas 32% dos avisos controversos. No entanto, a versão modificada respondeu a 96% dos avisos, com os 4% restantes sendo o conteúdo extremamente explícito. A empresa enfatizou que seu método permite que os usuários ajustem os recursos de viés e segurança do modelo sem transformá -lo em um "gerador imprudente", especialmente quando apenas a censura desnecessária é removida.
É importante ressaltar que esse método não compromete a precisão ou desempenho do modelo. Ao contrário do ajuste fino tradicional, não envolve otimização de pesos do modelo ou fornecendo novas respostas de exemplo. Isso oferece duas vantagens principais: efeito imediato na próxima geração de token e a capacidade de alternar entre diferentes comportamentos, atribuindo o ajuste do recurso dentro ou desativado ou mesmo ajustando -o em graus variados para diferentes contextos.
Modelo de segurança e segurança
O Relatório do Congresso da DeepSeek instou os EUA a "tomar medidas rápidas para expandir os controles de exportação, melhorar a aplicação do controle de exportação e abordar os riscos dos modelos de inteligência artificial chinesa". À medida que as preocupações com a potencial ameaça à segurança nacional da Deepseek cresciam, pesquisadores e empresas de IA começaram a explorar maneiras de tornar esses modelos mais seguros.
Determinar o que é "seguro", tendencioso ou censurado, pode ser um desafio, mas os métodos que permitem que os usuários ajustem os controles do modelo para atender às suas necessidades pode ser altamente benéfico. Gorlla enfatizou que as empresas "precisam ser capazes de confiar em seus modelos estão alinhadas com suas políticas", destacando a importância de métodos como os CTGTs para as empresas.
"O CTGT permite que as empresas implantem IA que se adapte a seus casos de uso sem ter que gastar milhões de dólares em modelos de ajuste fino para cada caso de uso. Isso é particularmente importante em aplicações de alto risco, como segurança, finanças e assistência médica, onde os possíveis danos que podem vir do incorreto da IA são graves", afirmou Gorlla.











