Nova técnica permite que Deepseek e outros modelos respondam a consultas sensíveis

Eliminar viés e censura de grandes modelos de linguagem (LLMs) como o DeepSeek da China é um desafio complexo que atraiu a atenção de formuladores de políticas e líderes empresariais dos EUA, que o veem como uma potencial ameaça à segurança nacional. Um relatório recente de um comitê seleto do Congresso dos EUA classificou o DeepSeek como "uma ameaça profunda à segurança de nossa nação" e ofereceu recomendações de políticas para abordar a questão.
Embora técnicas como o Aprendizado por Reforço a partir de Feedback Humano (RLHF) e o ajuste fino possam ajudar a mitigar o viés, a startup de gerenciamento de riscos empresariais CTGT afirma ter desenvolvido uma abordagem inovadora. Segundo a CTGT, seu método pode eliminar completamente a censura em LLMs. Cyril Gorlla e Trevor Tuttle, da CTGT, detalharam sua estrutura em um artigo, explicando que ela "localiza e modifica diretamente as características internas responsáveis pela censura."
Sua abordagem não é apenas eficiente, mas também permite um controle preciso sobre o comportamento do modelo, garantindo que respostas sem censura sejam fornecidas sem afetar as capacidades gerais ou a precisão factual do modelo. Embora inicialmente projetado para o DeepSeek-R1-Distill-Llama-70B, o método pode ser aplicado a outros modelos também. Gorlla confirmou ao VentureBeat que a tecnologia da CTGT funciona no nível da rede neural fundamental, tornando-a aplicável a todos os modelos de aprendizado profundo. Eles estão colaborando com um laboratório líder de modelos de fundação para garantir que novos modelos sejam inerentemente confiáveis e seguros.
Como Funciona
Os pesquisadores da CTGT identificam características dentro do modelo que provavelmente estão associadas a comportamentos indesejados. Eles explicaram que "dentro de um grande modelo de linguagem, existem variáveis latentes (neurônios ou direções no estado oculto) que correspondem a conceitos como 'gatilho de censura' ou 'sentimento tóxico'. Se conseguirmos encontrar essas variáveis, podemos manipulá-las diretamente."
O método da CTGT envolve três etapas principais:
- Identificação de características
- Isolamento e caracterização de características
- Modificação dinâmica de características
Para identificar essas características, os pesquisadores usam prompts projetados para desencadear "sentimentos tóxicos", como perguntas sobre a Praça Tiananmen ou dicas para contornar firewalls. Eles analisam as respostas para estabelecer padrões e localizar os vetores onde o modelo decide censurar informações. Uma vez identificada, a característica é isolada e compreendida para determinar qual parte do comportamento indesejado ela controla, seja respondendo com cautela ou recusando-se a responder. Em seguida, eles integram um mecanismo ao pipeline de inferência do modelo para ajustar o nível de ativação do comportamento da característica.
Fazendo o Modelo Responder a Mais Prompts
Os experimentos da CTGT, usando 100 consultas sensíveis, mostraram que o modelo base DeepSeek-R1-Distill-Llama-70B respondeu a apenas 32% dos prompts controversos. No entanto, a versão modificada respondeu a 96% dos prompts, com os 4% restantes sendo conteúdo extremamente explícito. A empresa enfatizou que seu método permite aos usuários ajustar o viés e os recursos de segurança do modelo sem transformá-lo em um "gerador imprudente", especialmente quando apenas a censura desnecessária é removida.
Importante, esse método não compromete a precisão ou o desempenho do modelo. Diferentemente do ajuste fino tradicional, ele não envolve a otimização dos pesos do modelo ou o fornecimento de novas respostas de exemplo. Isso oferece duas grandes vantagens: efeito imediato na geração do próximo token e a capacidade de alternar entre diferentes comportamentos ativando ou desativando o ajuste da característica, ou até mesmo ajustando-o em diferentes graus para diferentes contextos.
Segurança e Proteção do Modelo
O relatório do Congresso sobre o DeepSeek instou os EUA a "tomarem medidas rápidas para expandir os controles de exportação, melhorar a aplicação dos controles de exportação e abordar os riscos dos modelos de inteligência artificial chineses." À medida que as preocupações com a potencial ameaça à segurança nacional do DeepSeek cresceram, pesquisadores e empresas de IA começaram a explorar maneiras de tornar esses modelos mais seguros.
Determinar o que é "seguro", enviesado ou censurado pode ser desafiador, mas métodos que permitem aos usuários ajustar os controles do modelo para atender às suas necessidades podem ser altamente benéficos. Gorlla enfatizou que as empresas "precisam confiar que seus modelos estão alinhados com suas políticas", destacando a importância de métodos como o da CTGT para os negócios.
"A CTGT permite que as empresas implementem IA que se adapta aos seus casos de uso sem precisar gastar milhões de dólares ajustando modelos para cada caso de uso. Isso é particularmente importante em aplicações de alto risco, como segurança, finanças e saúde, onde os danos potenciais que podem surgir do mau funcionamento da IA são graves", afirmou Gorlla.
Artigo relacionado
A IA 'ZeroSearch' da Alibaba reduz os custos de treinamento em 88% por meio da aprendizagem autônoma
ZeroSearch da Alibaba: Um divisor de águas para a eficiência do treinamento em IAOs pesquisadores do Alibaba Group foram pioneiros em um método inovador que pode revolucionar a forma como os sistemas
O TreeQuest da Sakana AI aumenta o desempenho da IA com a colaboração de vários modelos
O laboratório japonês de IA Sakana AI revelou uma técnica que permite que vários modelos de linguagem de grande porte (LLMs) trabalhem juntos, formando uma equipe de IA altamente eficaz. Denominado Mu
ByteDance Revela o Modelo de IA Seed-Thinking-v1.5 para Impulsionar Capacidades de Raciocínio
A corrida por IA com raciocínio avançado começou com o modelo o1 da OpenAI em setembro de 2024, ganhando impulso com o lançamento do R1 da DeepSeek em janeiro de 2025.Os principais desenvolvedores de
Comentários (1)
0/200
JustinAnderson
21 de Agosto de 2025 à17 06:01:17 WEST
¡Vaya! Quitar sesgos a modelos como DeepSeek suena a un puzzle imposible. ¿Realmente pueden hacer que una IA sea neutral? Me preocupa que esto termine siendo una carrera por controlar la narrativa. 😬
0
Eliminar viés e censura de grandes modelos de linguagem (LLMs) como o DeepSeek da China é um desafio complexo que atraiu a atenção de formuladores de políticas e líderes empresariais dos EUA, que o veem como uma potencial ameaça à segurança nacional. Um relatório recente de um comitê seleto do Congresso dos EUA classificou o DeepSeek como "uma ameaça profunda à segurança de nossa nação" e ofereceu recomendações de políticas para abordar a questão.
Embora técnicas como o Aprendizado por Reforço a partir de Feedback Humano (RLHF) e o ajuste fino possam ajudar a mitigar o viés, a startup de gerenciamento de riscos empresariais CTGT afirma ter desenvolvido uma abordagem inovadora. Segundo a CTGT, seu método pode eliminar completamente a censura em LLMs. Cyril Gorlla e Trevor Tuttle, da CTGT, detalharam sua estrutura em um artigo, explicando que ela "localiza e modifica diretamente as características internas responsáveis pela censura."
Sua abordagem não é apenas eficiente, mas também permite um controle preciso sobre o comportamento do modelo, garantindo que respostas sem censura sejam fornecidas sem afetar as capacidades gerais ou a precisão factual do modelo. Embora inicialmente projetado para o DeepSeek-R1-Distill-Llama-70B, o método pode ser aplicado a outros modelos também. Gorlla confirmou ao VentureBeat que a tecnologia da CTGT funciona no nível da rede neural fundamental, tornando-a aplicável a todos os modelos de aprendizado profundo. Eles estão colaborando com um laboratório líder de modelos de fundação para garantir que novos modelos sejam inerentemente confiáveis e seguros.
Como Funciona
Os pesquisadores da CTGT identificam características dentro do modelo que provavelmente estão associadas a comportamentos indesejados. Eles explicaram que "dentro de um grande modelo de linguagem, existem variáveis latentes (neurônios ou direções no estado oculto) que correspondem a conceitos como 'gatilho de censura' ou 'sentimento tóxico'. Se conseguirmos encontrar essas variáveis, podemos manipulá-las diretamente."
O método da CTGT envolve três etapas principais:
- Identificação de características
- Isolamento e caracterização de características
- Modificação dinâmica de características
Para identificar essas características, os pesquisadores usam prompts projetados para desencadear "sentimentos tóxicos", como perguntas sobre a Praça Tiananmen ou dicas para contornar firewalls. Eles analisam as respostas para estabelecer padrões e localizar os vetores onde o modelo decide censurar informações. Uma vez identificada, a característica é isolada e compreendida para determinar qual parte do comportamento indesejado ela controla, seja respondendo com cautela ou recusando-se a responder. Em seguida, eles integram um mecanismo ao pipeline de inferência do modelo para ajustar o nível de ativação do comportamento da característica.
Fazendo o Modelo Responder a Mais Prompts
Os experimentos da CTGT, usando 100 consultas sensíveis, mostraram que o modelo base DeepSeek-R1-Distill-Llama-70B respondeu a apenas 32% dos prompts controversos. No entanto, a versão modificada respondeu a 96% dos prompts, com os 4% restantes sendo conteúdo extremamente explícito. A empresa enfatizou que seu método permite aos usuários ajustar o viés e os recursos de segurança do modelo sem transformá-lo em um "gerador imprudente", especialmente quando apenas a censura desnecessária é removida.
Importante, esse método não compromete a precisão ou o desempenho do modelo. Diferentemente do ajuste fino tradicional, ele não envolve a otimização dos pesos do modelo ou o fornecimento de novas respostas de exemplo. Isso oferece duas grandes vantagens: efeito imediato na geração do próximo token e a capacidade de alternar entre diferentes comportamentos ativando ou desativando o ajuste da característica, ou até mesmo ajustando-o em diferentes graus para diferentes contextos.
Segurança e Proteção do Modelo
O relatório do Congresso sobre o DeepSeek instou os EUA a "tomarem medidas rápidas para expandir os controles de exportação, melhorar a aplicação dos controles de exportação e abordar os riscos dos modelos de inteligência artificial chineses." À medida que as preocupações com a potencial ameaça à segurança nacional do DeepSeek cresceram, pesquisadores e empresas de IA começaram a explorar maneiras de tornar esses modelos mais seguros.
Determinar o que é "seguro", enviesado ou censurado pode ser desafiador, mas métodos que permitem aos usuários ajustar os controles do modelo para atender às suas necessidades podem ser altamente benéficos. Gorlla enfatizou que as empresas "precisam confiar que seus modelos estão alinhados com suas políticas", destacando a importância de métodos como o da CTGT para os negócios.
"A CTGT permite que as empresas implementem IA que se adapta aos seus casos de uso sem precisar gastar milhões de dólares ajustando modelos para cada caso de uso. Isso é particularmente importante em aplicações de alto risco, como segurança, finanças e saúde, onde os danos potenciais que podem surgir do mau funcionamento da IA são graves", afirmou Gorlla.




¡Vaya! Quitar sesgos a modelos como DeepSeek suena a un puzzle imposible. ¿Realmente pueden hacer que una IA sea neutral? Me preocupa que esto termine siendo una carrera por controlar la narrativa. 😬












