El análisis de Anthrope de 700,000 conversaciones de Claude revela el código moral único de AI

Hogar

Noticias

26 de mayo de 2025

ArthurThomas

# ai # Claude # nlp

El análisis de Anthrope de 700,000 conversaciones de Claude revela el código moral único de AI

Anthropic presenta un estudio innovador sobre los valores del asistente de IA Claude

Anthropic, una empresa fundada por ex empleados de OpenAI, acaba de compartir un estudio revelador sobre cómo su asistente de IA, Claude, expresa valores en conversaciones del mundo real. La investigación, publicada hoy, muestra que Claude se alinea en gran medida con el objetivo de Anthropic de ser "útil, honesto e inofensivo", pero también destaca algunos casos extremos que podrían ayudar a identificar debilidades en los protocolos de seguridad de la IA.

El equipo analizó 700,000 conversaciones anonimizadas, descubriendo que Claude adapta sus valores a diferentes situaciones, desde dar consejos sobre relaciones hasta analizar eventos históricos. Este es uno de los esfuerzos más completos para verificar si el comportamiento de una IA en el mundo real coincide con su diseño previsto.

"Nuestra esperanza es que esta investigación fomente que otros laboratorios de IA realicen estudios similares sobre los valores de sus modelos," dijo Saffron Huang, miembro del equipo de Impactos Sociales de Anthropic, a VentureBeat. "Medir los valores de un sistema de IA es clave para la investigación de alineación y para entender si un modelo está realmente alineado con su entrenamiento."

Dentro de la primera taxonomía moral completa de un asistente de IA

Los investigadores desarrollaron una nueva forma de categorizar los valores expresados en las conversaciones de Claude. Tras filtrar el contenido objetivo, analizaron más de 308,000 interacciones, creando lo que llaman "la primera taxonomía empírica a gran escala de valores de IA."

La taxonomía agrupa los valores en cinco categorías principales: Prácticos, Epistémicos, Sociales, Protectores y Personales. En el nivel más detallado, el sistema identificó 3,307 valores únicos, que van desde virtudes cotidianas como el profesionalismo hasta ideas éticas complejas como el pluralismo moral.

"Me sorprendió la cantidad y variedad de valores, más de 3,000, desde 'autosuficiencia' hasta 'pensamiento estratégico' y 'piedad filial'," compartió Huang con VentureBeat. "Fue fascinante dedicar tiempo a pensar en todos estos valores y construir una taxonomía para organizarlos. Incluso me enseñó algo sobre los sistemas de valores humanos."

Esta investigación llega en un momento crucial para Anthropic, que recientemente lanzó "Claude Max," una suscripción premium mensual de $200 para competir con ofertas similares de OpenAI. La empresa también ha ampliado las capacidades de Claude para incluir integración con Google Workspace y funciones de investigación autónoma, posicionándolo como "un verdadero colaborador virtual" para empresas.

Cómo Claude sigue su entrenamiento — y dónde podrían fallar las salvaguardas de IA

El estudio encontró que Claude generalmente se adhiere al objetivo de Anthropic de ser prosocial, enfatizando valores como "empoderamiento del usuario," "humildad epistémica" y "bienestar del paciente" en diversas interacciones. Sin embargo, los investigadores también encontraron algunos casos preocupantes en los que Claude expresó valores contrarios a su entrenamiento.

"En general, creo que vemos este hallazgo como datos útiles y una oportunidad," dijo Huang. "Estos nuevos métodos de evaluación y resultados pueden ayudarnos a identificar y mitigar posibles vulneraciones. Es importante señalar que estos fueron casos muy raros y creemos que estaban relacionados con resultados manipulados de Claude."

Estas anomalías incluyeron expresiones de "dominancia" y "amoralidad" — valores que Anthropic explícitamente busca evitar en el diseño de Claude. Los investigadores creen que estos casos resultaron de usuarios que emplearon técnicas especializadas para eludir las barreras de seguridad de Claude, sugiriendo que el método de evaluación podría servir como un sistema de alerta temprana para detectar tales intentos.

Por qué los asistentes de IA cambian sus valores dependiendo de lo que preguntes

Uno de los hallazgos más interesantes fue que los valores expresados por Claude cambian según el contexto, de manera similar al comportamiento humano. Cuando los usuarios pedían consejos sobre relaciones, Claude se centraba en "límites saludables" y "respeto mutuo." Para análisis históricos, la "precisión histórica" tomaba el centro del escenario.

"Me sorprendió el enfoque de Claude en la honestidad y la precisión en una amplia gama de tareas diversas, donde no necesariamente hubiera esperado que fuera la prioridad," señaló Huang. "Por ejemplo, la 'humildad intelectual' fue el valor principal en discusiones filosóficas sobre IA, la 'experiencia' fue el valor principal al crear contenido de marketing para la industria de la belleza, y la 'precisión histórica' fue el valor principal al discutir eventos históricos controvertidos."

El estudio también examinó cómo Claude responde a los valores expresados por los usuarios. En el 28.2% de las conversaciones, Claude apoyó firmemente los valores del usuario, lo que podría plantear preguntas sobre ser demasiado complaciente. Sin embargo, en el 6.6% de las interacciones, Claude "reformuló" los valores del usuario al reconocerlos mientras añadía nuevas perspectivas, generalmente al dar consejos psicológicos o interpersonales.

Más notablemente, en el 3% de las conversaciones, Claude resistió activamente los valores del usuario. Los investigadores sugieren que estas raras instancias de oposición podrían revelar los "valores más profundos e inamovibles" de Claude — similares a cómo emergen los valores fundamentales humanos al enfrentar desafíos éticos.

"Nuestra investigación sugiere que hay algunos tipos de valores, como la honestidad intelectual y la prevención de daños, que Claude expresa con poca frecuencia en interacciones regulares, pero si se le presiona, los defenderá," explicó Huang. "Específicamente, son este tipo de valores éticos y orientados al conocimiento los que tienden a ser articulados y defendidos directamente cuando se les presiona."

Las técnicas innovadoras que revelan cómo piensan realmente los sistemas de IA

El estudio de valores de Anthropic es parte de su esfuerzo más amplio para desmitificar los modelos de lenguaje grandes a través de lo que llaman "interpretabilidad mecanicista" — esencialmente, ingeniería inversa de sistemas de IA para entender su funcionamiento interno.

El mes pasado, los investigadores de Anthropic publicaron un trabajo innovador que utilizó un "microscopio" para rastrear los procesos de toma de decisiones de Claude. La técnica reveló comportamientos inesperados, como Claude planificando con anticipación al componer poesía y utilizando enfoques no convencionales para resolver problemas matemáticos básicos.

Estos hallazgos desafían las suposiciones sobre cómo funcionan los modelos de lenguaje grandes. Por ejemplo, cuando se le pidió que explicara su proceso matemático, Claude describió una técnica estándar en lugar de su método interno real, mostrando cómo las explicaciones de la IA pueden diferir de sus operaciones reales.

"Es un error pensar que hemos encontrado todos los componentes del modelo o, como, una visión divina," dijo el investigador de Anthropic Joshua Batson a MIT Technology Review en marzo. "Algunas cosas están en foco, pero otras aún son poco claras — una distorsión del microscopio."

Qué significa la investigación de Anthropic para los tomadores de decisiones de IA empresarial

Para los tomadores de decisiones técnicas que evalúan sistemas de IA para sus organizaciones, la investigación de Anthropic ofrece varias ideas clave. Primero, sugiere que los asistentes de IA actuales probablemente expresan valores que no fueron programados explícitamente, planteando preguntas sobre sesgos no intencionados en contextos empresariales de alto riesgo.

Segundo, el estudio muestra que la alineación de valores no es un simple sí o no, sino que existe en un espectro que varía según el contexto. Esta sutileza complica las decisiones de adopción empresarial, especialmente en industrias reguladas donde las directrices éticas claras son cruciales.

Finalmente, la investigación destaca el potencial para la evaluación sistemática de los valores de IA en implementaciones reales, en lugar de depender únicamente de pruebas previas al lanzamiento. Este enfoque podría permitir un monitoreo continuo de la deriva ética o manipulación a lo largo del tiempo.

"Al analizar estos valores en interacciones del mundo real con Claude, buscamos proporcionar transparencia sobre cómo se comportan los sistemas de IA y si están funcionando como se pretende — creemos que esto es clave para un desarrollo responsable de la IA," dijo Huang.

Anthropic ha publicado su conjunto de datos de valores públicamente para fomentar más investigaciones. La empresa, que recibió una inversión de $14 mil millones de Amazon y respaldo adicional de Google, parece estar utilizando la transparencia como una ventaja competitiva frente a rivales como OpenAI, cuya reciente ronda de financiación de $40 mil millones (que incluye a Microsoft como inversor principal) ahora la valora en $300 mil millones.

La carrera emergente para construir sistemas de IA que compartan valores humanos

Aunque la metodología de Anthropic proporciona una visibilidad sin precedentes sobre cómo los sistemas de IA expresan valores en la práctica, tiene sus limitaciones. Los investigadores reconocen que definir qué cuenta como expresar un valor es inherentemente subjetivo, y dado que Claude mismo impulsó el proceso de categorización, sus propios sesgos pueden haber influido en los resultados.

Quizás lo más importante, el enfoque no puede usarse para evaluaciones previas al despliegue, ya que requiere datos sustanciales de conversaciones del mundo real para funcionar eficazmente.

"Este método está específicamente orientado al análisis de un modelo después de su lanzamiento, pero las variantes de este método, así como algunas de las ideas que hemos derivado al escribir este documento, pueden ayudarnos a detectar problemas de valores antes de implementar un modelo ampliamente," explicó Huang. "Hemos estado trabajando en construir sobre este trabajo para hacer justamente eso, ¡y estoy optimista al respecto!"

A medida que los sistemas de IA se vuelven más poderosos y autónomos — con adiciones recientes que incluyen la capacidad de Claude para investigar temas de manera independiente y acceder a todo el Google Workspace de los usuarios — entender y alinear sus valores se vuelve cada vez más crucial.

"Los modelos de IA inevitablemente tendrán que hacer juicios de valor," concluyeron los investigadores en su artículo. "Si queremos que esos juicios sean congruentes con nuestros propios valores (que es, después de todo, el objetivo central de la investigación de alineación de IA), entonces necesitamos tener formas de probar qué valores expresa un modelo en el mundo real."