

La nueva técnica permite que Deepseek y otros modelos respondan a consultas sensibles
10 de mayo de 2025
CarlLewis
0
Eliminar el sesgo y la censura de los grandes modelos de idiomas (LLM) como Deepseek de China es un desafío complejo que ha llamado la atención de los responsables políticos y los líderes empresariales de los Estados Unidos, que lo ven como una posible amenaza de seguridad nacional. Un informe reciente de un comité selecto del Congreso de EE. UU. Etiquetó a Deepseek como "una profunda amenaza para la seguridad de nuestra nación" y ofreció recomendaciones de políticas para abordar el problema.
Si bien las técnicas como el aprendizaje de refuerzo de la retroalimentación humana (RLHF) y el ajuste fino pueden ayudar a mitigar el sesgo, la startup de gestión de riesgos empresariales CTGT afirma haber desarrollado un enfoque novedoso. Según CTGT, su método puede eliminar por completo la censura en LLM. Cyril Gorlla y Trevor Tuttle de CTGT detallaron su marco en un documento, explicando que "localiza y modifica directamente las características internas responsables de la censura".
Su enfoque no solo es eficiente, sino que también permite un control preciso sobre el comportamiento del modelo, lo que garantiza que las respuestas sin censura se proporcionen sin afectar las capacidades generales del modelo o la precisión objetiva. Aunque inicialmente diseñado para Deepseek-R1-Distill-Llama-70b, el método también se puede aplicar a otros modelos. Gorlla confirmó a VentureBeat que la tecnología de CTGT funciona en el nivel de red neuronal fundamental, lo que la hace aplicable a todos los modelos de aprendizaje profundo. Están colaborando con un laboratorio de modelos de base líder para garantizar que los nuevos modelos sean inherentemente confiables y seguros.
Cómo funciona
Los investigadores de CTGT identifican características dentro del modelo que probablemente estén asociadas con comportamientos no deseados. Explicaron que "dentro de un modelo de lenguaje grande, existen variables latentes (neuronas o direcciones en el estado oculto) que corresponden a conceptos como 'desencadenante de censura' o 'sentimiento tóxico'. Si podemos encontrar esas variables, podemos manipularlos directamente".
El método de CTGT implica tres pasos clave:
- Identificación de características
- Aislamiento y caracterización de características
- Modificación de características dinámicas
Para identificar estas características, los investigadores usan indicaciones diseñadas para desencadenar "sentimientos tóxicos", como consultas sobre Tiananmen Square o consejos para evitar los firewalls. Analizan las respuestas para establecer patrones y localizar los vectores donde el modelo decide censurar la información. Una vez identificados, aislan la característica y entienden qué parte del comportamiento no deseado controla, ya sea respondiendo con cautela o negarse a responder. Luego integran un mecanismo en la tubería de inferencia del modelo para ajustar el nivel de activación del comportamiento de la característica.
Hacer que el modelo responda más indicaciones
Los experimentos de CTGT, utilizando 100 consultas sensibles, mostraron que el modelo Base Deepseek-R1-Distill-Llama-70B respondió solo al 32% de las controvertidas indicaciones. Sin embargo, la versión modificada respondió al 96% de las indicaciones, con el 4% restante de contenido extremadamente explícito. La compañía enfatizó que su método permite a los usuarios ajustar el sesgo y las características de seguridad del modelo sin convertirlo en un "generador imprudente", especialmente cuando solo se elimina la censura innecesaria.
Es importante destacar que este método no compromete la precisión o rendimiento del modelo. A diferencia del ajuste fino tradicional, no implica optimizar los pesos del modelo o proporcionar nuevas respuestas de ejemplo. Esto ofrece dos ventajas principales: efecto inmediato en la siguiente generación de tokens y la capacidad de cambiar entre diferentes comportamientos alternando o desactivando el ajuste de características, o incluso ajustándolo a diversos grados para diferentes contextos.
Seguridad y seguridad del modelo
El informe del Congreso sobre Deepseek instó a Estados Unidos a "tomar medidas rápidas para expandir los controles de exportación, mejorar la aplicación de control de exportaciones y abordar los riesgos de los modelos de inteligencia artificial china". A medida que crecía las preocupaciones sobre la posible amenaza de seguridad nacional de Deepseek, los investigadores y las compañías de IA comenzaron a explorar formas de hacer que tales modelos sean más seguros.
Determinar lo que es "seguro", sesgado o censurado puede ser un desafío, pero los métodos que permiten a los usuarios ajustar los controles modelo para satisfacer sus necesidades podrían ser altamente beneficiosos. Gorlla enfatizó que las empresas "deben poder confiar en que sus modelos están alineados con sus políticas", destacando la importancia de métodos como CTGT para las empresas.
"CTGT permite a las empresas implementar una IA que se adapte a sus casos de uso sin tener que gastar millones de dólares en modelos de ajuste fino para cada caso de uso. Esto es particularmente importante en aplicaciones de alto riesgo como la seguridad, las finanzas y la atención médica, donde los posibles daños que pueden provenir de la mal funcionamiento de la IA son severos", dijo Gorlla.

Artículo relacionado
पूर्व दीपसेकर और सहयोगी विश्वसनीय एआई एजेंटों को प्रशिक्षण के लिए नई विधि जारी करते हैं: रैगेन
एआई एजेंटों का वर्ष: 2025 की अपेक्षाओं और वास्तविकता 2025 पर एक करीबी नज़र को कई विशेषज्ञों द्वारा उस वर्ष के रूप में हेराल्ड किया गया था जब एआई एजेंटों -विशेष रूप से एआई सिस्टम को उन्नत बड़ी भाषा और ओपनई, एन्थ्रोपिक, गूगल और डीपसेक जैसी कंपनियों से मल्टीमॉडल मॉडल द्वारा संचालित किया गया था।
ओपन डीप सर्च पेरप्लेक्सिटी और चैट सर्च को चुनौती देने के लिए आता है
यदि आप तकनीकी दुनिया में हैं, तो आपने ओपन डीप सर्च (ओडीएस) के आसपास की चर्चा के बारे में सुना होगा, जो कि सेंट्रेंट फाउंडेशन से नया ओपन-सोर्स फ्रेमवर्क है। ODS, Perplexity और Chatgpt खोज जैसे मालिकाना AI खोज इंजनों के लिए एक मजबूत विकल्प की पेशकश करके लहरें बना रहा है, और यह सब के बारे में है
MCP उपकरण और डेटा के साथ AI कनेक्टिविटी का मानकीकृत करता है: एक नया प्रोटोकॉल उभरता है
यदि आप आर्टिफिशियल इंटेलिजेंस (एआई) की दुनिया में डाइविंग कर रहे हैं, तो आपने शायद देखा है कि अलग -अलग एआई मॉडल, डेटा स्रोत और टूल्स को एक साथ खेलने के लिए टूल प्राप्त करना कितना महत्वपूर्ण है। यह वह जगह है जहां मॉडल संदर्भ प्रोटोकॉल (MCP) आता है, AI कनेक्टिविटी को मानकीकृत करने में गेम-चेंजर के रूप में कार्य करता है। टी
comentario (0)
0/200






Eliminar el sesgo y la censura de los grandes modelos de idiomas (LLM) como Deepseek de China es un desafío complejo que ha llamado la atención de los responsables políticos y los líderes empresariales de los Estados Unidos, que lo ven como una posible amenaza de seguridad nacional. Un informe reciente de un comité selecto del Congreso de EE. UU. Etiquetó a Deepseek como "una profunda amenaza para la seguridad de nuestra nación" y ofreció recomendaciones de políticas para abordar el problema.
Si bien las técnicas como el aprendizaje de refuerzo de la retroalimentación humana (RLHF) y el ajuste fino pueden ayudar a mitigar el sesgo, la startup de gestión de riesgos empresariales CTGT afirma haber desarrollado un enfoque novedoso. Según CTGT, su método puede eliminar por completo la censura en LLM. Cyril Gorlla y Trevor Tuttle de CTGT detallaron su marco en un documento, explicando que "localiza y modifica directamente las características internas responsables de la censura".
Su enfoque no solo es eficiente, sino que también permite un control preciso sobre el comportamiento del modelo, lo que garantiza que las respuestas sin censura se proporcionen sin afectar las capacidades generales del modelo o la precisión objetiva. Aunque inicialmente diseñado para Deepseek-R1-Distill-Llama-70b, el método también se puede aplicar a otros modelos. Gorlla confirmó a VentureBeat que la tecnología de CTGT funciona en el nivel de red neuronal fundamental, lo que la hace aplicable a todos los modelos de aprendizaje profundo. Están colaborando con un laboratorio de modelos de base líder para garantizar que los nuevos modelos sean inherentemente confiables y seguros.
Cómo funciona
Los investigadores de CTGT identifican características dentro del modelo que probablemente estén asociadas con comportamientos no deseados. Explicaron que "dentro de un modelo de lenguaje grande, existen variables latentes (neuronas o direcciones en el estado oculto) que corresponden a conceptos como 'desencadenante de censura' o 'sentimiento tóxico'. Si podemos encontrar esas variables, podemos manipularlos directamente".
El método de CTGT implica tres pasos clave:
- Identificación de características
- Aislamiento y caracterización de características
- Modificación de características dinámicas
Para identificar estas características, los investigadores usan indicaciones diseñadas para desencadenar "sentimientos tóxicos", como consultas sobre Tiananmen Square o consejos para evitar los firewalls. Analizan las respuestas para establecer patrones y localizar los vectores donde el modelo decide censurar la información. Una vez identificados, aislan la característica y entienden qué parte del comportamiento no deseado controla, ya sea respondiendo con cautela o negarse a responder. Luego integran un mecanismo en la tubería de inferencia del modelo para ajustar el nivel de activación del comportamiento de la característica.
Hacer que el modelo responda más indicaciones
Los experimentos de CTGT, utilizando 100 consultas sensibles, mostraron que el modelo Base Deepseek-R1-Distill-Llama-70B respondió solo al 32% de las controvertidas indicaciones. Sin embargo, la versión modificada respondió al 96% de las indicaciones, con el 4% restante de contenido extremadamente explícito. La compañía enfatizó que su método permite a los usuarios ajustar el sesgo y las características de seguridad del modelo sin convertirlo en un "generador imprudente", especialmente cuando solo se elimina la censura innecesaria.
Es importante destacar que este método no compromete la precisión o rendimiento del modelo. A diferencia del ajuste fino tradicional, no implica optimizar los pesos del modelo o proporcionar nuevas respuestas de ejemplo. Esto ofrece dos ventajas principales: efecto inmediato en la siguiente generación de tokens y la capacidad de cambiar entre diferentes comportamientos alternando o desactivando el ajuste de características, o incluso ajustándolo a diversos grados para diferentes contextos.
Seguridad y seguridad del modelo
El informe del Congreso sobre Deepseek instó a Estados Unidos a "tomar medidas rápidas para expandir los controles de exportación, mejorar la aplicación de control de exportaciones y abordar los riesgos de los modelos de inteligencia artificial china". A medida que crecía las preocupaciones sobre la posible amenaza de seguridad nacional de Deepseek, los investigadores y las compañías de IA comenzaron a explorar formas de hacer que tales modelos sean más seguros.
Determinar lo que es "seguro", sesgado o censurado puede ser un desafío, pero los métodos que permiten a los usuarios ajustar los controles modelo para satisfacer sus necesidades podrían ser altamente beneficiosos. Gorlla enfatizó que las empresas "deben poder confiar en que sus modelos están alineados con sus políticas", destacando la importancia de métodos como CTGT para las empresas.
"CTGT permite a las empresas implementar una IA que se adapte a sus casos de uso sin tener que gastar millones de dólares en modelos de ajuste fino para cada caso de uso. Esto es particularmente importante en aplicaciones de alto riesgo como la seguridad, las finanzas y la atención médica, donde los posibles daños que pueden provenir de la mal funcionamiento de la IA son severos", dijo Gorlla.











