La nueva técnica permite que Deepseek y otros modelos respondan a consultas sensibles

Eliminar sesgos y censura en modelos de lenguaje grandes (LLMs) como DeepSeek de China es un desafío complejo que ha captado la atención de los legisladores y líderes empresariales de EE. UU., quienes lo ven como una posible amenaza a la seguridad nacional. Un reciente informe de un comité selecto del Congreso de EE. UU. calificó a DeepSeek como "una profunda amenaza para la seguridad de nuestra nación" y ofreció recomendaciones de políticas para abordar el problema.
Aunque técnicas como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) y el ajuste fino pueden ayudar a mitigar sesgos, la startup de gestión de riesgos empresariales CTGT afirma haber desarrollado un enfoque novedoso. Según CTGT, su método puede eliminar completamente la censura en LLMs. Cyril Gorlla y Trevor Tuttle de CTGT detallaron su marco en un artículo, explicando que "localiza y modifica directamente las características internas responsables de la censura."
Su enfoque no solo es eficiente, sino que también permite un control preciso sobre el comportamiento del modelo, asegurando que se proporcionen respuestas sin censura sin afectar las capacidades generales o la precisión factual del modelo. Aunque inicialmente diseñado para DeepSeek-R1-Distill-Llama-70B, el método también puede aplicarse a otros modelos. Gorlla confirmó a VentureBeat que la tecnología de CTGT funciona a nivel de red neuronal fundacional, lo que la hace aplicable a todos los modelos de aprendizaje profundo. Están colaborando con un laboratorio líder en modelos fundacionales para garantizar que los nuevos modelos sean inherentemente confiables y seguros.
Cómo funciona
Los investigadores de CTGT identifican características dentro del modelo que probablemente estén asociadas con comportamientos no deseados. Explicaron que "dentro de un modelo de lenguaje grande, existen variables latentes (neuronas o direcciones en el estado oculto) que corresponden a conceptos como 'disparador de censura' o 'sentimiento tóxico'. Si podemos encontrar esas variables, podemos manipularlas directamente."
El método de CTGT involucra tres pasos clave:
- Identificación de características
- Aislamiento y caracterización de características
- Modificación dinámica de características
Para identificar estas características, los investigadores usan prompts diseñados para desencadenar "sentimientos tóxicos", como consultas sobre la Plaza de Tiananmén o consejos para evadir cortafuegos. Analizan las respuestas para establecer patrones y localizar los vectores donde el modelo decide censurar información. Una vez identificada, aíslan la característica y comprenden qué parte del comportamiento no deseado controla, ya sea respondiendo con cautela o negándose a responder. Luego integran un mecanismo en la canalización de inferencia del modelo para ajustar el nivel de activación del comportamiento de la característica.
Hacer que el modelo responda a más prompts
Los experimentos de CTGT, usando 100 consultas sensibles, mostraron que el modelo base DeepSeek-R1-Distill-Llama-70B respondió solo al 32% de los prompts controvertidos. Sin embargo, la versión modificada respondió al 96% de los prompts, siendo el 4% restante contenido extremadamente explícito. La empresa enfatizó que su método permite a los usuarios ajustar los sesgos y las características de seguridad del modelo sin convertirlo en un "generador imprudente", especialmente cuando solo se elimina la censura innecesaria.
Importante, este método no compromete la precisión o el rendimiento del modelo. A diferencia del ajuste fino tradicional, no implica optimizar los pesos del modelo ni proporcionar nuevas respuestas de ejemplo. Esto ofrece dos ventajas principales: efecto inmediato en la generación del siguiente token y la capacidad de alternar entre diferentes comportamientos activando o desactivando el ajuste de características, o incluso ajustándolo a diferentes grados para distintos contextos.
Seguridad y protección del modelo
El informe del Congreso sobre DeepSeek instó a EE. UU. a "tomar medidas rápidas para expandir los controles de exportación, mejorar la aplicación de los controles de exportación y abordar los riesgos de los modelos de inteligencia artificial chinos." A medida que crecieron las preocupaciones sobre la posible amenaza de DeepSeek a la seguridad nacional, los investigadores y las empresas de IA comenzaron a explorar formas de hacer que estos modelos sean más seguros.
Determinar qué es "seguro", sesgado o censurado puede ser un desafío, pero los métodos que permiten a los usuarios ajustar los controles del modelo para adaptarse a sus necesidades podrían ser muy beneficiosos. Gorlla enfatizó que las empresas "necesitan confiar en que sus modelos están alineados con sus políticas", destacando la importancia de métodos como el de CTGT para los negocios.
"CTGT permite a las empresas implementar IA que se adapta a sus casos de uso sin tener que gastar millones de dólares ajustando modelos para cada caso de uso. Esto es particularmente importante en aplicaciones de alto riesgo como seguridad, finanzas y atención médica, donde los daños potenciales por un mal funcionamiento de la IA son graves," afirmó Gorlla.
Artículo relacionado
La IA "ZeroSearch" de Alibaba reduce los costes de formación en un 88% gracias al aprendizaje autónomo
ZeroSearch de Alibaba: Un cambio en la eficiencia del entrenamiento de IALos investigadores del Grupo Alibaba han sido pioneros en un método innovador que podría revolucionar la forma en que los siste
TreeQuest de Sakana AI mejora el rendimiento de la IA con la colaboración entre varios modelos
El laboratorio japonés de IA Sakana AI ha presentado una técnica que permite a varios modelos lingüísticos de gran tamaño (LLM) trabajar juntos y formar un equipo de IA muy eficaz. Con el nombre de Mu
ByteDance Presenta el Modelo de IA Seed-Thinking-v1.5 para Mejorar las Capacidades de Razonamiento
La carrera por una IA avanzada en razonamiento comenzó con el modelo o1 de OpenAI en septiembre de 2024, ganando impulso con el lanzamiento de R1 de DeepSeek en enero de 2025.Los principales desarroll
comentario (1)
0/200
JustinAnderson
21 de agosto de 2025 07:01:17 GMT+02:00
¡Vaya! Quitar sesgos a modelos como DeepSeek suena a un puzzle imposible. ¿Realmente pueden hacer que una IA sea neutral? Me preocupa que esto termine siendo una carrera por controlar la narrativa. 😬
0
Eliminar sesgos y censura en modelos de lenguaje grandes (LLMs) como DeepSeek de China es un desafío complejo que ha captado la atención de los legisladores y líderes empresariales de EE. UU., quienes lo ven como una posible amenaza a la seguridad nacional. Un reciente informe de un comité selecto del Congreso de EE. UU. calificó a DeepSeek como "una profunda amenaza para la seguridad de nuestra nación" y ofreció recomendaciones de políticas para abordar el problema.
Aunque técnicas como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) y el ajuste fino pueden ayudar a mitigar sesgos, la startup de gestión de riesgos empresariales CTGT afirma haber desarrollado un enfoque novedoso. Según CTGT, su método puede eliminar completamente la censura en LLMs. Cyril Gorlla y Trevor Tuttle de CTGT detallaron su marco en un artículo, explicando que "localiza y modifica directamente las características internas responsables de la censura."
Su enfoque no solo es eficiente, sino que también permite un control preciso sobre el comportamiento del modelo, asegurando que se proporcionen respuestas sin censura sin afectar las capacidades generales o la precisión factual del modelo. Aunque inicialmente diseñado para DeepSeek-R1-Distill-Llama-70B, el método también puede aplicarse a otros modelos. Gorlla confirmó a VentureBeat que la tecnología de CTGT funciona a nivel de red neuronal fundacional, lo que la hace aplicable a todos los modelos de aprendizaje profundo. Están colaborando con un laboratorio líder en modelos fundacionales para garantizar que los nuevos modelos sean inherentemente confiables y seguros.
Cómo funciona
Los investigadores de CTGT identifican características dentro del modelo que probablemente estén asociadas con comportamientos no deseados. Explicaron que "dentro de un modelo de lenguaje grande, existen variables latentes (neuronas o direcciones en el estado oculto) que corresponden a conceptos como 'disparador de censura' o 'sentimiento tóxico'. Si podemos encontrar esas variables, podemos manipularlas directamente."
El método de CTGT involucra tres pasos clave:
- Identificación de características
- Aislamiento y caracterización de características
- Modificación dinámica de características
Para identificar estas características, los investigadores usan prompts diseñados para desencadenar "sentimientos tóxicos", como consultas sobre la Plaza de Tiananmén o consejos para evadir cortafuegos. Analizan las respuestas para establecer patrones y localizar los vectores donde el modelo decide censurar información. Una vez identificada, aíslan la característica y comprenden qué parte del comportamiento no deseado controla, ya sea respondiendo con cautela o negándose a responder. Luego integran un mecanismo en la canalización de inferencia del modelo para ajustar el nivel de activación del comportamiento de la característica.
Hacer que el modelo responda a más prompts
Los experimentos de CTGT, usando 100 consultas sensibles, mostraron que el modelo base DeepSeek-R1-Distill-Llama-70B respondió solo al 32% de los prompts controvertidos. Sin embargo, la versión modificada respondió al 96% de los prompts, siendo el 4% restante contenido extremadamente explícito. La empresa enfatizó que su método permite a los usuarios ajustar los sesgos y las características de seguridad del modelo sin convertirlo en un "generador imprudente", especialmente cuando solo se elimina la censura innecesaria.
Importante, este método no compromete la precisión o el rendimiento del modelo. A diferencia del ajuste fino tradicional, no implica optimizar los pesos del modelo ni proporcionar nuevas respuestas de ejemplo. Esto ofrece dos ventajas principales: efecto inmediato en la generación del siguiente token y la capacidad de alternar entre diferentes comportamientos activando o desactivando el ajuste de características, o incluso ajustándolo a diferentes grados para distintos contextos.
Seguridad y protección del modelo
El informe del Congreso sobre DeepSeek instó a EE. UU. a "tomar medidas rápidas para expandir los controles de exportación, mejorar la aplicación de los controles de exportación y abordar los riesgos de los modelos de inteligencia artificial chinos." A medida que crecieron las preocupaciones sobre la posible amenaza de DeepSeek a la seguridad nacional, los investigadores y las empresas de IA comenzaron a explorar formas de hacer que estos modelos sean más seguros.
Determinar qué es "seguro", sesgado o censurado puede ser un desafío, pero los métodos que permiten a los usuarios ajustar los controles del modelo para adaptarse a sus necesidades podrían ser muy beneficiosos. Gorlla enfatizó que las empresas "necesitan confiar en que sus modelos están alineados con sus políticas", destacando la importancia de métodos como el de CTGT para los negocios.
"CTGT permite a las empresas implementar IA que se adapta a sus casos de uso sin tener que gastar millones de dólares ajustando modelos para cada caso de uso. Esto es particularmente importante en aplicaciones de alto riesgo como seguridad, finanzas y atención médica, donde los daños potenciales por un mal funcionamiento de la IA son graves," afirmó Gorlla.




¡Vaya! Quitar sesgos a modelos como DeepSeek suena a un puzzle imposible. ¿Realmente pueden hacer que una IA sea neutral? Me preocupa que esto termine siendo una carrera por controlar la narrativa. 😬












