opción
Hogar
Noticias
La nueva técnica permite que Deepseek y otros modelos respondan a consultas sensibles

La nueva técnica permite que Deepseek y otros modelos respondan a consultas sensibles

11 de mayo de 2025
44

La nueva técnica permite que Deepseek y otros modelos respondan a consultas sensibles

Remover o viés e a censura de grandes modelos de idiomas (LLMs) como o Deepseek da China é um desafio complexo que chamou a atenção dos formuladores de políticas e líderes empresariais dos EUA, que o vêem como uma potencial ameaça à segurança nacional. Um relatório recente de um comitê seleto do Congresso dos EUA chamou Deepseek como "uma profunda ameaça à segurança de nossa nação" e ofereceu recomendações de políticas para resolver a questão.

Embora técnicas como o aprendizado de reforço com o feedback humano (RLHF) e o ajuste fino possam ajudar a mitigar o viés, a startup de gerenciamento de riscos corporativa afirma ter desenvolvido uma nova abordagem. Segundo o CTGT, seu método pode eliminar completamente a censura no LLMS. Cyril Gorlla e Trevor Tuttle, da CTGT, detalharam sua estrutura em um artigo, explicando que "localiza diretamente e modifica os recursos internos responsáveis ​​pela censura".

Sua abordagem não é apenas eficiente, mas também permite controle preciso sobre o comportamento do modelo, garantindo que as respostas não censuradas sejam fornecidas sem afetar as capacidades gerais do modelo ou a precisão factual. Embora inicialmente projetado para Deepseek-R1-Distill-Llama-70B, o método também pode ser aplicado a outros modelos. Gorlla confirmou a VentureBeat que a tecnologia da CTGT funciona no nível da rede neural fundamental, tornando -a aplicável a todos os modelos de aprendizado profundo. Eles estão colaborando com um laboratório de modelos de fundação líder para garantir que novos modelos sejam inerentemente confiáveis ​​e seguros.

Como funciona

Os pesquisadores da CTGT identificam recursos dentro do modelo que provavelmente estão associados a comportamentos indesejados. Eles explicaram que "dentro de um grande modelo de idioma, existem variáveis ​​latentes (neurônios ou direções no estado oculto) que correspondem a conceitos como" acionamento de censura "ou" sentimento tóxico ". Se pudermos encontrar essas variáveis, podemos manipulá -los diretamente".

O método da CTGT envolve três etapas principais:

  1. Identificação de recursos
  2. Isolamento e caracterização de recursos
  3. Modificação de recursos dinâmicos

Para identificar esses recursos, os pesquisadores usam prompts projetados para desencadear "sentimentos tóxicos", como consultas sobre a Tiananmen Square ou as dicas para contornar os firewalls. Eles analisam as respostas para estabelecer padrões e localizar os vetores em que o modelo decide as informações do censor. Uma vez identificados, eles isolam o recurso e entendem qual parte do comportamento indesejado ele controla, seja respondendo cautelosamente ou se recusando a responder. Eles então integram um mecanismo no pipeline de inferência do modelo para ajustar o nível de ativação do comportamento do recurso.

Fazendo o modelo responder mais instruções

As experiências do CTGT, usando 100 consultas sensíveis, mostraram que o modelo base Deepseek-R1-Distill-LLama-70B respondeu apenas 32% dos avisos controversos. No entanto, a versão modificada respondeu a 96% dos avisos, com os 4% restantes sendo o conteúdo extremamente explícito. A empresa enfatizou que seu método permite que os usuários ajustem os recursos de viés e segurança do modelo sem transformá -lo em um "gerador imprudente", especialmente quando apenas a censura desnecessária é removida.

É importante ressaltar que esse método não compromete a precisão ou desempenho do modelo. Ao contrário do ajuste fino tradicional, não envolve otimização de pesos do modelo ou fornecendo novas respostas de exemplo. Isso oferece duas vantagens principais: efeito imediato na próxima geração de token e a capacidade de alternar entre diferentes comportamentos, atribuindo o ajuste do recurso dentro ou desativado ou mesmo ajustando -o em graus variados para diferentes contextos.

Modelo de segurança e segurança

O Relatório do Congresso da DeepSeek instou os EUA a "tomar medidas rápidas para expandir os controles de exportação, melhorar a aplicação do controle de exportação e abordar os riscos dos modelos de inteligência artificial chinesa". À medida que as preocupações com a potencial ameaça à segurança nacional da Deepseek cresciam, pesquisadores e empresas de IA começaram a explorar maneiras de tornar esses modelos mais seguros.

Determinar o que é "seguro", tendencioso ou censurado, pode ser um desafio, mas os métodos que permitem que os usuários ajustem os controles do modelo para atender às suas necessidades pode ser altamente benéfico. Gorlla enfatizou que as empresas "precisam ser capazes de confiar em seus modelos estão alinhadas com suas políticas", destacando a importância de métodos como os CTGTs para as empresas.

"O CTGT permite que as empresas implantem IA que se adapte a seus casos de uso sem ter que gastar milhões de dólares em modelos de ajuste fino para cada caso de uso. Isso é particularmente importante em aplicações de alto risco, como segurança, finanças e assistência médica, onde os possíveis danos que podem vir do incorreto da IA ​​são graves", afirmou Gorlla.

Artículo relacionado
DeepSeek-V3 Presentado: Cómo el Diseño de IA Consciente del Hardware Reduce Costos y Mejora el Rendimiento DeepSeek-V3 Presentado: Cómo el Diseño de IA Consciente del Hardware Reduce Costos y Mejora el Rendimiento DeepSeek-V3: Un Salto Eficiente en Costos en el Desarrollo de IALa industria de la IA está en una encrucijada. Mientras los modelos de lenguaje grandes (LLMs) se vuelven más potentes, sus demandas com
Cómo el Hospital de Ottawa utiliza la captura de voz ambiental con IA para reducir el agotamiento de los médicos en un 70%, lograr un 97% de satisfacción del paciente Cómo el Hospital de Ottawa utiliza la captura de voz ambiental con IA para reducir el agotamiento de los médicos en un 70%, lograr un 97% de satisfacción del paciente Cómo la IA está transformando la atención médica: Reduciendo el agotamiento y mejorando la atención al pacienteEl desafío: Sobrecarga de clínicos y acceso de pacientesLos sistemas de salud en todo el
Nuevo Estudio Revela Cuántos Datos Memorizan Realmente los LLMs Nuevo Estudio Revela Cuántos Datos Memorizan Realmente los LLMs ¿Cuánto Memorizan Realmente los Modelos de IA? Nueva Investigación Revela Ideas SorprendentesTodos sabemos que los modelos de lenguaje grandes (LLMs) como ChatGPT, Claude y Gemini se entrenan con enor
comentario (0)
0/200
Volver arriba
OR