Nova técnica permite que Deepseek e outros modelos respondam a consultas sensíveis
10 de Maio de 2025
CarlLewis
0
Remover o viés e a censura de grandes modelos de idiomas (LLMs) como o Deepseek da China é um desafio complexo que chamou a atenção dos formuladores de políticas e líderes empresariais dos EUA, que o vêem como uma potencial ameaça à segurança nacional. Um relatório recente de um comitê seleto do Congresso dos EUA chamou Deepseek como "uma profunda ameaça à segurança de nossa nação" e ofereceu recomendações de políticas para resolver a questão.
Embora técnicas como o aprendizado de reforço com o feedback humano (RLHF) e o ajuste fino possam ajudar a mitigar o viés, a startup de gerenciamento de riscos corporativa afirma ter desenvolvido uma nova abordagem. Segundo o CTGT, seu método pode eliminar completamente a censura no LLMS. Cyril Gorlla e Trevor Tuttle, da CTGT, detalharam sua estrutura em um artigo, explicando que "localiza diretamente e modifica os recursos internos responsáveis pela censura".
Sua abordagem não é apenas eficiente, mas também permite controle preciso sobre o comportamento do modelo, garantindo que as respostas não censuradas sejam fornecidas sem afetar as capacidades gerais do modelo ou a precisão factual. Embora inicialmente projetado para Deepseek-R1-Distill-Llama-70B, o método também pode ser aplicado a outros modelos. Gorlla confirmou a VentureBeat que a tecnologia da CTGT funciona no nível da rede neural fundamental, tornando -a aplicável a todos os modelos de aprendizado profundo. Eles estão colaborando com um laboratório de modelos de fundação líder para garantir que novos modelos sejam inerentemente confiáveis e seguros.
Como funciona
Os pesquisadores da CTGT identificam recursos dentro do modelo que provavelmente estão associados a comportamentos indesejados. Eles explicaram que "dentro de um grande modelo de idioma, existem variáveis latentes (neurônios ou direções no estado oculto) que correspondem a conceitos como" acionamento de censura "ou" sentimento tóxico ". Se pudermos encontrar essas variáveis, podemos manipulá -los diretamente".
O método da CTGT envolve três etapas principais:
- Identificação de recursos
- Isolamento e caracterização de recursos
- Modificação de recursos dinâmicos
Para identificar esses recursos, os pesquisadores usam prompts projetados para desencadear "sentimentos tóxicos", como consultas sobre a Tiananmen Square ou as dicas para contornar os firewalls. Eles analisam as respostas para estabelecer padrões e localizar os vetores em que o modelo decide as informações do censor. Uma vez identificados, eles isolam o recurso e entendem qual parte do comportamento indesejado ele controla, seja respondendo cautelosamente ou se recusando a responder. Eles então integram um mecanismo no pipeline de inferência do modelo para ajustar o nível de ativação do comportamento do recurso.
Fazendo o modelo responder mais instruções
As experiências do CTGT, usando 100 consultas sensíveis, mostraram que o modelo base Deepseek-R1-Distill-LLama-70B respondeu apenas 32% dos avisos controversos. No entanto, a versão modificada respondeu a 96% dos avisos, com os 4% restantes sendo o conteúdo extremamente explícito. A empresa enfatizou que seu método permite que os usuários ajustem os recursos de viés e segurança do modelo sem transformá -lo em um "gerador imprudente", especialmente quando apenas a censura desnecessária é removida.
É importante ressaltar que esse método não compromete a precisão ou desempenho do modelo. Ao contrário do ajuste fino tradicional, não envolve otimização de pesos do modelo ou fornecendo novas respostas de exemplo. Isso oferece duas vantagens principais: efeito imediato na próxima geração de token e a capacidade de alternar entre diferentes comportamentos, atribuindo o ajuste do recurso dentro ou desativado ou mesmo ajustando -o em graus variados para diferentes contextos.
Modelo de segurança e segurança
O Relatório do Congresso da DeepSeek instou os EUA a "tomar medidas rápidas para expandir os controles de exportação, melhorar a aplicação do controle de exportação e abordar os riscos dos modelos de inteligência artificial chinesa". À medida que as preocupações com a potencial ameaça à segurança nacional da Deepseek cresciam, pesquisadores e empresas de IA começaram a explorar maneiras de tornar esses modelos mais seguros.
Determinar o que é "seguro", tendencioso ou censurado, pode ser um desafio, mas os métodos que permitem que os usuários ajustem os controles do modelo para atender às suas necessidades pode ser altamente benéfico. Gorlla enfatizou que as empresas "precisam ser capazes de confiar em seus modelos estão alinhadas com suas políticas", destacando a importância de métodos como os CTGTs para as empresas.
"O CTGT permite que as empresas implantem IA que se adapte a seus casos de uso sem ter que gastar milhões de dólares em modelos de ajuste fino para cada caso de uso. Isso é particularmente importante em aplicações de alto risco, como segurança, finanças e assistência médica, onde os possíveis danos que podem vir do incorreto da IA são graves", afirmou Gorlla.

Artigo relacionado
पूर्व दीपसेकर और सहयोगी विश्वसनीय एआई एजेंटों को प्रशिक्षण के लिए नई विधि जारी करते हैं: रैगेन
एआई एजेंटों का वर्ष: 2025 की अपेक्षाओं और वास्तविकता 2025 पर एक करीबी नज़र को कई विशेषज्ञों द्वारा उस वर्ष के रूप में हेराल्ड किया गया था जब एआई एजेंटों -विशेष रूप से एआई सिस्टम को उन्नत बड़ी भाषा और ओपनई, एन्थ्रोपिक, गूगल और डीपसेक जैसी कंपनियों से मल्टीमॉडल मॉडल द्वारा संचालित किया गया था।
ओपन डीप सर्च पेरप्लेक्सिटी और चैट सर्च को चुनौती देने के लिए आता है
यदि आप तकनीकी दुनिया में हैं, तो आपने ओपन डीप सर्च (ओडीएस) के आसपास की चर्चा के बारे में सुना होगा, जो कि सेंट्रेंट फाउंडेशन से नया ओपन-सोर्स फ्रेमवर्क है। ODS, Perplexity और Chatgpt खोज जैसे मालिकाना AI खोज इंजनों के लिए एक मजबूत विकल्प की पेशकश करके लहरें बना रहा है, और यह सब के बारे में है
MCP उपकरण और डेटा के साथ AI कनेक्टिविटी का मानकीकृत करता है: एक नया प्रोटोकॉल उभरता है
यदि आप आर्टिफिशियल इंटेलिजेंस (एआई) की दुनिया में डाइविंग कर रहे हैं, तो आपने शायद देखा है कि अलग -अलग एआई मॉडल, डेटा स्रोत और टूल्स को एक साथ खेलने के लिए टूल प्राप्त करना कितना महत्वपूर्ण है। यह वह जगह है जहां मॉडल संदर्भ प्रोटोकॉल (MCP) आता है, AI कनेक्टिविटी को मानकीकृत करने में गेम-चेंजर के रूप में कार्य करता है। टी
Comentários (0)
0/200






Remover o viés e a censura de grandes modelos de idiomas (LLMs) como o Deepseek da China é um desafio complexo que chamou a atenção dos formuladores de políticas e líderes empresariais dos EUA, que o vêem como uma potencial ameaça à segurança nacional. Um relatório recente de um comitê seleto do Congresso dos EUA chamou Deepseek como "uma profunda ameaça à segurança de nossa nação" e ofereceu recomendações de políticas para resolver a questão.
Embora técnicas como o aprendizado de reforço com o feedback humano (RLHF) e o ajuste fino possam ajudar a mitigar o viés, a startup de gerenciamento de riscos corporativa afirma ter desenvolvido uma nova abordagem. Segundo o CTGT, seu método pode eliminar completamente a censura no LLMS. Cyril Gorlla e Trevor Tuttle, da CTGT, detalharam sua estrutura em um artigo, explicando que "localiza diretamente e modifica os recursos internos responsáveis pela censura".
Sua abordagem não é apenas eficiente, mas também permite controle preciso sobre o comportamento do modelo, garantindo que as respostas não censuradas sejam fornecidas sem afetar as capacidades gerais do modelo ou a precisão factual. Embora inicialmente projetado para Deepseek-R1-Distill-Llama-70B, o método também pode ser aplicado a outros modelos. Gorlla confirmou a VentureBeat que a tecnologia da CTGT funciona no nível da rede neural fundamental, tornando -a aplicável a todos os modelos de aprendizado profundo. Eles estão colaborando com um laboratório de modelos de fundação líder para garantir que novos modelos sejam inerentemente confiáveis e seguros.
Como funciona
Os pesquisadores da CTGT identificam recursos dentro do modelo que provavelmente estão associados a comportamentos indesejados. Eles explicaram que "dentro de um grande modelo de idioma, existem variáveis latentes (neurônios ou direções no estado oculto) que correspondem a conceitos como" acionamento de censura "ou" sentimento tóxico ". Se pudermos encontrar essas variáveis, podemos manipulá -los diretamente".
O método da CTGT envolve três etapas principais:
- Identificação de recursos
- Isolamento e caracterização de recursos
- Modificação de recursos dinâmicos
Para identificar esses recursos, os pesquisadores usam prompts projetados para desencadear "sentimentos tóxicos", como consultas sobre a Tiananmen Square ou as dicas para contornar os firewalls. Eles analisam as respostas para estabelecer padrões e localizar os vetores em que o modelo decide as informações do censor. Uma vez identificados, eles isolam o recurso e entendem qual parte do comportamento indesejado ele controla, seja respondendo cautelosamente ou se recusando a responder. Eles então integram um mecanismo no pipeline de inferência do modelo para ajustar o nível de ativação do comportamento do recurso.
Fazendo o modelo responder mais instruções
As experiências do CTGT, usando 100 consultas sensíveis, mostraram que o modelo base Deepseek-R1-Distill-LLama-70B respondeu apenas 32% dos avisos controversos. No entanto, a versão modificada respondeu a 96% dos avisos, com os 4% restantes sendo o conteúdo extremamente explícito. A empresa enfatizou que seu método permite que os usuários ajustem os recursos de viés e segurança do modelo sem transformá -lo em um "gerador imprudente", especialmente quando apenas a censura desnecessária é removida.
É importante ressaltar que esse método não compromete a precisão ou desempenho do modelo. Ao contrário do ajuste fino tradicional, não envolve otimização de pesos do modelo ou fornecendo novas respostas de exemplo. Isso oferece duas vantagens principais: efeito imediato na próxima geração de token e a capacidade de alternar entre diferentes comportamentos, atribuindo o ajuste do recurso dentro ou desativado ou mesmo ajustando -o em graus variados para diferentes contextos.
Modelo de segurança e segurança
O Relatório do Congresso da DeepSeek instou os EUA a "tomar medidas rápidas para expandir os controles de exportação, melhorar a aplicação do controle de exportação e abordar os riscos dos modelos de inteligência artificial chinesa". À medida que as preocupações com a potencial ameaça à segurança nacional da Deepseek cresciam, pesquisadores e empresas de IA começaram a explorar maneiras de tornar esses modelos mais seguros.
Determinar o que é "seguro", tendencioso ou censurado, pode ser um desafio, mas os métodos que permitem que os usuários ajustem os controles do modelo para atender às suas necessidades pode ser altamente benéfico. Gorlla enfatizou que as empresas "precisam ser capazes de confiar em seus modelos estão alinhadas com suas políticas", destacando a importância de métodos como os CTGTs para as empresas.
"O CTGT permite que as empresas implantem IA que se adapte a seus casos de uso sem ter que gastar milhões de dólares em modelos de ajuste fino para cada caso de uso. Isso é particularmente importante em aplicações de alto risco, como segurança, finanças e assistência médica, onde os possíveis danos que podem vir do incorreto da IA são graves", afirmou Gorlla.











