신기술 및 기타 모델이 민감한 쿼리에 응답 할 수 있습니다.

Remover o viés e a censura de grandes modelos de idiomas (LLMs) como o Deepseek da China é um desafio complexo que chamou a atenção dos formuladores de políticas e líderes empresariais dos EUA, que o vêem como uma potencial ameaça à segurança nacional. Um relatório recente de um comitê seleto do Congresso dos EUA chamou Deepseek como "uma profunda ameaça à segurança de nossa nação" e ofereceu recomendações de políticas para resolver a questão.
Embora técnicas como o aprendizado de reforço com o feedback humano (RLHF) e o ajuste fino possam ajudar a mitigar o viés, a startup de gerenciamento de riscos corporativa afirma ter desenvolvido uma nova abordagem. Segundo o CTGT, seu método pode eliminar completamente a censura no LLMS. Cyril Gorlla e Trevor Tuttle, da CTGT, detalharam sua estrutura em um artigo, explicando que "localiza diretamente e modifica os recursos internos responsáveis pela censura".
Sua abordagem não é apenas eficiente, mas também permite controle preciso sobre o comportamento do modelo, garantindo que as respostas não censuradas sejam fornecidas sem afetar as capacidades gerais do modelo ou a precisão factual. Embora inicialmente projetado para Deepseek-R1-Distill-Llama-70B, o método também pode ser aplicado a outros modelos. Gorlla confirmou a VentureBeat que a tecnologia da CTGT funciona no nível da rede neural fundamental, tornando -a aplicável a todos os modelos de aprendizado profundo. Eles estão colaborando com um laboratório de modelos de fundação líder para garantir que novos modelos sejam inerentemente confiáveis e seguros.
Como funciona
Os pesquisadores da CTGT identificam recursos dentro do modelo que provavelmente estão associados a comportamentos indesejados. Eles explicaram que "dentro de um grande modelo de idioma, existem variáveis latentes (neurônios ou direções no estado oculto) que correspondem a conceitos como" acionamento de censura "ou" sentimento tóxico ". Se pudermos encontrar essas variáveis, podemos manipulá -los diretamente".
O método da CTGT envolve três etapas principais:
- Identificação de recursos
- Isolamento e caracterização de recursos
- Modificação de recursos dinâmicos
Para identificar esses recursos, os pesquisadores usam prompts projetados para desencadear "sentimentos tóxicos", como consultas sobre a Tiananmen Square ou as dicas para contornar os firewalls. Eles analisam as respostas para estabelecer padrões e localizar os vetores em que o modelo decide as informações do censor. Uma vez identificados, eles isolam o recurso e entendem qual parte do comportamento indesejado ele controla, seja respondendo cautelosamente ou se recusando a responder. Eles então integram um mecanismo no pipeline de inferência do modelo para ajustar o nível de ativação do comportamento do recurso.
Fazendo o modelo responder mais instruções
As experiências do CTGT, usando 100 consultas sensíveis, mostraram que o modelo base Deepseek-R1-Distill-LLama-70B respondeu apenas 32% dos avisos controversos. No entanto, a versão modificada respondeu a 96% dos avisos, com os 4% restantes sendo o conteúdo extremamente explícito. A empresa enfatizou que seu método permite que os usuários ajustem os recursos de viés e segurança do modelo sem transformá -lo em um "gerador imprudente", especialmente quando apenas a censura desnecessária é removida.
É importante ressaltar que esse método não compromete a precisão ou desempenho do modelo. Ao contrário do ajuste fino tradicional, não envolve otimização de pesos do modelo ou fornecendo novas respostas de exemplo. Isso oferece duas vantagens principais: efeito imediato na próxima geração de token e a capacidade de alternar entre diferentes comportamentos, atribuindo o ajuste do recurso dentro ou desativado ou mesmo ajustando -o em graus variados para diferentes contextos.
Modelo de segurança e segurança
O Relatório do Congresso da DeepSeek instou os EUA a "tomar medidas rápidas para expandir os controles de exportação, melhorar a aplicação do controle de exportação e abordar os riscos dos modelos de inteligência artificial chinesa". À medida que as preocupações com a potencial ameaça à segurança nacional da Deepseek cresciam, pesquisadores e empresas de IA começaram a explorar maneiras de tornar esses modelos mais seguros.
Determinar o que é "seguro", tendencioso ou censurado, pode ser um desafio, mas os métodos que permitem que os usuários ajustem os controles do modelo para atender às suas necessidades pode ser altamente benéfico. Gorlla enfatizou que as empresas "precisam ser capazes de confiar em seus modelos estão alinhadas com suas políticas", destacando a importância de métodos como os CTGTs para as empresas.
"O CTGT permite que as empresas implantem IA que se adapte a seus casos de uso sem ter que gastar milhões de dólares em modelos de ajuste fino para cada caso de uso. Isso é particularmente importante em aplicações de alto risco, como segurança, finanças e assistência médica, onde os possíveis danos que podem vir do incorreto da IA são graves", afirmou Gorlla.
관련 기사
DeepSeek-V3 공개: 하드웨어-Aware AI 설계가 비용 절감과 성능 향상을 어떻게 구현하는가
DeepSeek-V3: AI 개발의 비용 효율적인 도약AI 산업은 갈림길에 있습니다. 대규모 언어 모델(LLM)이 더 강력해지고 있지만, 그들의 연산 요구량은 급증하여 최첨단 AI 개발이 대부분의 조직에 비해 너무 비싸게 되었습니다. DeepSeek-V3은 단순한 브루트 포스 스케일링이 아니라 지능적인 하드웨어-소프트웨어 공동 설계가 최첨단 성능을 비용의
오타와 병원이 AI 음성 캡처를 활용해 의사 소진을 70% 줄이고, 97% 환자 만족도를 달성한 방법
AI가 의료를 어떻게 변화시키는가: 소진 감소와 환자 치료 개선도전 과제: 의료진 과부하와 환자 접근성전 세계 의료 시스템은 두 가지 도전에 직면해 있습니다: 의료진 소진과 환자 접근 지연. 의사들은 행정 업무에 압도되고, 환자들은 적시에 치료를 받기 위해 애쓰고 있습니다. 오타와 병원 (TOH)의 리더들은 이 문제를 인식하고 AI를 해결책으로 선택했습니
새로운 연구가 LLM이 실제로 얼마나 많은 데이터를 기억하는지 밝힘
AI 모델은 실제로 얼마나 많이 기억할까? 새로운 연구가 놀라운 통찰을 제공우리 모두는 ChatGPT, Claude, Gemini와 같은 대형 언어 모델(LLM)이 책, 웹사이트, 코드, 심지어 이미지와 오디오 같은 멀티미디어에서 나온 수조 개의 단어로 훈련된다는 것을 알고 있습니다. 하지만 이 모든 데이터는 어떻게 되는 걸까요? 이 모델들은 언어를 정말로
의견 (0)
0/200
Remover o viés e a censura de grandes modelos de idiomas (LLMs) como o Deepseek da China é um desafio complexo que chamou a atenção dos formuladores de políticas e líderes empresariais dos EUA, que o vêem como uma potencial ameaça à segurança nacional. Um relatório recente de um comitê seleto do Congresso dos EUA chamou Deepseek como "uma profunda ameaça à segurança de nossa nação" e ofereceu recomendações de políticas para resolver a questão.
Embora técnicas como o aprendizado de reforço com o feedback humano (RLHF) e o ajuste fino possam ajudar a mitigar o viés, a startup de gerenciamento de riscos corporativa afirma ter desenvolvido uma nova abordagem. Segundo o CTGT, seu método pode eliminar completamente a censura no LLMS. Cyril Gorlla e Trevor Tuttle, da CTGT, detalharam sua estrutura em um artigo, explicando que "localiza diretamente e modifica os recursos internos responsáveis pela censura".
Sua abordagem não é apenas eficiente, mas também permite controle preciso sobre o comportamento do modelo, garantindo que as respostas não censuradas sejam fornecidas sem afetar as capacidades gerais do modelo ou a precisão factual. Embora inicialmente projetado para Deepseek-R1-Distill-Llama-70B, o método também pode ser aplicado a outros modelos. Gorlla confirmou a VentureBeat que a tecnologia da CTGT funciona no nível da rede neural fundamental, tornando -a aplicável a todos os modelos de aprendizado profundo. Eles estão colaborando com um laboratório de modelos de fundação líder para garantir que novos modelos sejam inerentemente confiáveis e seguros.
Como funciona
Os pesquisadores da CTGT identificam recursos dentro do modelo que provavelmente estão associados a comportamentos indesejados. Eles explicaram que "dentro de um grande modelo de idioma, existem variáveis latentes (neurônios ou direções no estado oculto) que correspondem a conceitos como" acionamento de censura "ou" sentimento tóxico ". Se pudermos encontrar essas variáveis, podemos manipulá -los diretamente".
O método da CTGT envolve três etapas principais:
- Identificação de recursos
- Isolamento e caracterização de recursos
- Modificação de recursos dinâmicos
Para identificar esses recursos, os pesquisadores usam prompts projetados para desencadear "sentimentos tóxicos", como consultas sobre a Tiananmen Square ou as dicas para contornar os firewalls. Eles analisam as respostas para estabelecer padrões e localizar os vetores em que o modelo decide as informações do censor. Uma vez identificados, eles isolam o recurso e entendem qual parte do comportamento indesejado ele controla, seja respondendo cautelosamente ou se recusando a responder. Eles então integram um mecanismo no pipeline de inferência do modelo para ajustar o nível de ativação do comportamento do recurso.
Fazendo o modelo responder mais instruções
As experiências do CTGT, usando 100 consultas sensíveis, mostraram que o modelo base Deepseek-R1-Distill-LLama-70B respondeu apenas 32% dos avisos controversos. No entanto, a versão modificada respondeu a 96% dos avisos, com os 4% restantes sendo o conteúdo extremamente explícito. A empresa enfatizou que seu método permite que os usuários ajustem os recursos de viés e segurança do modelo sem transformá -lo em um "gerador imprudente", especialmente quando apenas a censura desnecessária é removida.
É importante ressaltar que esse método não compromete a precisão ou desempenho do modelo. Ao contrário do ajuste fino tradicional, não envolve otimização de pesos do modelo ou fornecendo novas respostas de exemplo. Isso oferece duas vantagens principais: efeito imediato na próxima geração de token e a capacidade de alternar entre diferentes comportamentos, atribuindo o ajuste do recurso dentro ou desativado ou mesmo ajustando -o em graus variados para diferentes contextos.
Modelo de segurança e segurança
O Relatório do Congresso da DeepSeek instou os EUA a "tomar medidas rápidas para expandir os controles de exportação, melhorar a aplicação do controle de exportação e abordar os riscos dos modelos de inteligência artificial chinesa". À medida que as preocupações com a potencial ameaça à segurança nacional da Deepseek cresciam, pesquisadores e empresas de IA começaram a explorar maneiras de tornar esses modelos mais seguros.
Determinar o que é "seguro", tendencioso ou censurado, pode ser um desafio, mas os métodos que permitem que os usuários ajustem os controles do modelo para atender às suas necessidades pode ser altamente benéfico. Gorlla enfatizou que as empresas "precisam ser capazes de confiar em seus modelos estão alinhadas com suas políticas", destacando a importância de métodos como os CTGTs para as empresas.
"O CTGT permite que as empresas implantem IA que se adapte a seus casos de uso sem ter que gastar milhões de dólares em modelos de ajuste fino para cada caso de uso. Isso é particularmente importante em aplicações de alto risco, como segurança, finanças e assistência médica, onde os possíveis danos que podem vir do incorreto da IA são graves", afirmou Gorlla.












