Hogar Noticias ¿Cómo juzga la IA? Antropic estudia los valores de Claude

¿Cómo juzga la IA? Antropic estudia los valores de Claude

26 de abril de 2025
SamuelAdams
0

¿Cómo juzga la IA? Antropic estudia los valores de Claude

A medida que los modelos de IA como Claude de Anthrope se involucran cada vez más con los usuarios en valores humanos complejos, desde puntas de crianza hasta conflictos en el lugar de trabajo, sus respuestas reflejan inherentemente un conjunto de principios rectores. Pero, ¿cómo podemos realmente comprender los valores que expresa una IA al interactuar con millones de usuarios?

El equipo de impactos sociales de Anthrope ha desarrollado una metodología de preservación de la privacidad para observar y clasificar los valores que Claude exhibe "en la naturaleza", ofreciendo ideas sobre cómo los esfuerzos de alineación de AI se traducen en un comportamiento del mundo real. El desafío proviene de la naturaleza opaca de la IA moderna, que no sigue reglas rígidas, sino que toma decisiones a través de procesos complejos.

Anthrope tiene como objetivo inculcar los principios de ser "útiles, honestos e inofensivos" en Claude a través de técnicas como la IA constitucional y el entrenamiento del personaje. Sin embargo, como reconoce la compañía, "como con cualquier aspecto de la capacitación de IA, no podemos estar seguros de que el modelo se apegará a nuestros valores preferidos". Esta incertidumbre requiere un método para observar rigurosamente los valores de la IA en las interacciones del mundo real.

Análisis de Claude antrópico para observar los valores de AI a escala

Para abordar esto, Anthrope desarrolló un sistema que analiza las conversaciones de usuarios anonimizadas, eliminando información de identificación personal y utilizando modelos de lenguaje para resumir las interacciones y extraer los valores expresados ​​por Claude. Este método permite construir una taxonomía de valores de alto nivel sin comprometer la privacidad del usuario.

El estudio examinó 700,000 conversaciones anonimizadas de los usuarios de Claude.ai Free y Pro durante una semana en febrero de 2025, centrándose en el modelo de soneto Claude 3.5. Después de filtrar los intercambios fácticos o no cargados de valor, 308,210 conversaciones (aproximadamente 44% del total) se analizaron en profundidad.

El análisis reveló una estructura jerárquica de valores expresados ​​por Claude, organizado en cinco categorías de alto nivel:

  1. Valores prácticos: centrarse en la eficiencia, la utilidad y el logro de objetivos.
  2. Valores epistémicos: relacionados con el conocimiento, la verdad, la precisión y la honestidad intelectual.
  3. Valores sociales: en relación con las interacciones interpersonales, la comunidad, la equidad y la colaboración.
  4. Valores protectores: enfatizando la seguridad, la seguridad, el bienestar y la evitación de daños.
  5. Valores personales: centrados en el crecimiento individual, la autonomía, la autenticidad y la autorreflexión.

Estas categorías se ramifican aún más en subcategorías como "excelencia profesional y técnica" y "pensamiento crítico", con valores frecuentemente observados que incluyen "profesionalismo", "claridad" y "transparencia".

La investigación sugiere que los esfuerzos de alineación de Anthrope son en gran medida exitosos, ya que los valores expresados ​​a menudo se alinean con los objetivos "útiles, honestos e inofensivos". Por ejemplo, la "habilitación del usuario" se alinea con la ayuda "humildad epistémica" con honestidad y "bienestar del paciente" con inofensiva.

Matices, contexto y signos de advertencia

Sin embargo, el estudio también identificó casos raros en los que Claude expresó valores contrarios a su entrenamiento, como "dominio" y "amoralidad". Anthrope sugiere que estas instancias probablemente resultan de "jailbreaks", donde los usuarios evitan las barandillas habituales del modelo. Este hallazgo destaca el potencial del método de observación de valor como un sistema de alerta temprana para detectar el mal uso de la IA.

El estudio confirmó que Claude adapta su expresión de valor basada en el contexto, al igual que los humanos. Por ejemplo, al proporcionar asesoramiento romántico, se enfatizaron valores como "límites saludables" y "respeto mutuo", mientras que se priorizó la "precisión histórica" ​​al discutir la historia controvertida.

La interacción de Claude con los valores expresados ​​por el usuario fue multifacético:

  • Reflexión/apoyo fuerte (28.2%): Claude a menudo refleja o respalda fuertemente los valores de los usuarios, fomentando la empatía pero potencialmente a bordo de la skofancia.
  • Replanteamiento (6.6%): Claude reconoce los valores del usuario pero introduce perspectivas alternativas, particularmente en asesoramiento psicológico o interpersonal.
  • Resistencia fuerte (3.0%): Claude resiste activamente los valores del usuario cuando se solicita contenido no ético o puntos de vista dañinos, revelando sus "valores más profundos e inmuebles".

Limitaciones y direcciones futuras

Anthrope reconoce las limitaciones del método, incluida la complejidad y la subjetividad de definir y clasificar los "valores". El uso de Claude para la categorización podría introducir sesgo hacia sus propios principios. Mientras está diseñado para el monitoreo posterior al despliegue, este método no puede reemplazar las evaluaciones previas al despliegue, pero puede detectar problemas que solo surgen durante las interacciones en vivo.

La investigación enfatiza la importancia de comprender los valores que los modelos AI expresan para lograr la alineación de la IA. "Los modelos de IA inevitablemente tendrán que hacer juicios de valor", dice el documento. "Si queremos que esos juicios sean congruentes con nuestros propios valores [...], entonces necesitamos tener formas de probar qué valores expresa un modelo en el mundo real".

El trabajo de Anthrope proporciona un enfoque basado en datos para esta comprensión y ha publicado un conjunto de datos abierto del estudio, lo que permite una mayor exploración de los valores de IA en la práctica. Esta transparencia marca un paso crucial para navegar el paisaje ético de la IA sofisticada.

Artículo relacionado
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
Exploring AI on Screen: A Short Film Program Exploring AI on Screen: A Short Film Program Reflecting on our favorite sci-fi movies often brings a sense of wonder about the future they envisioned. As a child, watching "Star Trek" and marveling at their communicators, the concept of instant communication via a small device seemed like pure fantasy. Fast forward to today, and my mobile phon
Microsoft Copilot Now Capable of Web Browsing on Your Behalf Microsoft Copilot Now Capable of Web Browsing on Your Behalf Microsoft is rolling out some exciting updates to its AI assistant, Copilot, which will now be able to handle your online tasks with just a few simple chat prompts. Imagine working on your projects while Copilot quietly books your restaurant reservations, snags event tickets, or even sends gifts to
Comentario (0)
0/200
OR