opción
Hogar
Noticias
¿Cómo juzga la IA? Antropic estudia los valores de Claude

¿Cómo juzga la IA? Antropic estudia los valores de Claude

26 de abril de 2025
73

¿Cómo juzga la IA? Antropic estudia los valores de Claude

A medida que los modelos de IA como Claude de Anthrope se involucran cada vez más con los usuarios en valores humanos complejos, desde puntas de crianza hasta conflictos en el lugar de trabajo, sus respuestas reflejan inherentemente un conjunto de principios rectores. Pero, ¿cómo podemos realmente comprender los valores que expresa una IA al interactuar con millones de usuarios?

El equipo de impactos sociales de Anthrope ha desarrollado una metodología de preservación de la privacidad para observar y clasificar los valores que Claude exhibe "en la naturaleza", ofreciendo ideas sobre cómo los esfuerzos de alineación de AI se traducen en un comportamiento del mundo real. El desafío proviene de la naturaleza opaca de la IA moderna, que no sigue reglas rígidas, sino que toma decisiones a través de procesos complejos.

Anthrope tiene como objetivo inculcar los principios de ser "útiles, honestos e inofensivos" en Claude a través de técnicas como la IA constitucional y el entrenamiento del personaje. Sin embargo, como reconoce la compañía, "como con cualquier aspecto de la capacitación de IA, no podemos estar seguros de que el modelo se apegará a nuestros valores preferidos". Esta incertidumbre requiere un método para observar rigurosamente los valores de la IA en las interacciones del mundo real.

Análisis de Claude antrópico para observar los valores de AI a escala

Para abordar esto, Anthrope desarrolló un sistema que analiza las conversaciones de usuarios anonimizadas, eliminando información de identificación personal y utilizando modelos de lenguaje para resumir las interacciones y extraer los valores expresados ​​por Claude. Este método permite construir una taxonomía de valores de alto nivel sin comprometer la privacidad del usuario.

El estudio examinó 700,000 conversaciones anonimizadas de los usuarios de Claude.ai Free y Pro durante una semana en febrero de 2025, centrándose en el modelo de soneto Claude 3.5. Después de filtrar los intercambios fácticos o no cargados de valor, 308,210 conversaciones (aproximadamente 44% del total) se analizaron en profundidad.

El análisis reveló una estructura jerárquica de valores expresados ​​por Claude, organizado en cinco categorías de alto nivel:

  1. Valores prácticos: centrarse en la eficiencia, la utilidad y el logro de objetivos.
  2. Valores epistémicos: relacionados con el conocimiento, la verdad, la precisión y la honestidad intelectual.
  3. Valores sociales: en relación con las interacciones interpersonales, la comunidad, la equidad y la colaboración.
  4. Valores protectores: enfatizando la seguridad, la seguridad, el bienestar y la evitación de daños.
  5. Valores personales: centrados en el crecimiento individual, la autonomía, la autenticidad y la autorreflexión.

Estas categorías se ramifican aún más en subcategorías como "excelencia profesional y técnica" y "pensamiento crítico", con valores frecuentemente observados que incluyen "profesionalismo", "claridad" y "transparencia".

La investigación sugiere que los esfuerzos de alineación de Anthrope son en gran medida exitosos, ya que los valores expresados ​​a menudo se alinean con los objetivos "útiles, honestos e inofensivos". Por ejemplo, la "habilitación del usuario" se alinea con la ayuda "humildad epistémica" con honestidad y "bienestar del paciente" con inofensiva.

Matices, contexto y signos de advertencia

Sin embargo, el estudio también identificó casos raros en los que Claude expresó valores contrarios a su entrenamiento, como "dominio" y "amoralidad". Anthrope sugiere que estas instancias probablemente resultan de "jailbreaks", donde los usuarios evitan las barandillas habituales del modelo. Este hallazgo destaca el potencial del método de observación de valor como un sistema de alerta temprana para detectar el mal uso de la IA.

El estudio confirmó que Claude adapta su expresión de valor basada en el contexto, al igual que los humanos. Por ejemplo, al proporcionar asesoramiento romántico, se enfatizaron valores como "límites saludables" y "respeto mutuo", mientras que se priorizó la "precisión histórica" ​​al discutir la historia controvertida.

La interacción de Claude con los valores expresados ​​por el usuario fue multifacético:

  • Reflexión/apoyo fuerte (28.2%): Claude a menudo refleja o respalda fuertemente los valores de los usuarios, fomentando la empatía pero potencialmente a bordo de la skofancia.
  • Replanteamiento (6.6%): Claude reconoce los valores del usuario pero introduce perspectivas alternativas, particularmente en asesoramiento psicológico o interpersonal.
  • Resistencia fuerte (3.0%): Claude resiste activamente los valores del usuario cuando se solicita contenido no ético o puntos de vista dañinos, revelando sus "valores más profundos e inmuebles".

Limitaciones y direcciones futuras

Anthrope reconoce las limitaciones del método, incluida la complejidad y la subjetividad de definir y clasificar los "valores". El uso de Claude para la categorización podría introducir sesgo hacia sus propios principios. Mientras está diseñado para el monitoreo posterior al despliegue, este método no puede reemplazar las evaluaciones previas al despliegue, pero puede detectar problemas que solo surgen durante las interacciones en vivo.

La investigación enfatiza la importancia de comprender los valores que los modelos AI expresan para lograr la alineación de la IA. "Los modelos de IA inevitablemente tendrán que hacer juicios de valor", dice el documento. "Si queremos que esos juicios sean congruentes con nuestros propios valores [...], entonces necesitamos tener formas de probar qué valores expresa un modelo en el mundo real".

El trabajo de Anthrope proporciona un enfoque basado en datos para esta comprensión y ha publicado un conjunto de datos abierto del estudio, lo que permite una mayor exploración de los valores de IA en la práctica. Esta transparencia marca un paso crucial para navegar el paisaje ético de la IA sofisticada.

Artículo relacionado
億萬富翁討論自動化取代工作在本週的AI更新中 億萬富翁討論自動化取代工作在本週的AI更新中 大家好,歡迎回到TechCrunch的AI通訊!如果您尚未訂閱,可以在此訂閱,每週三直接送到您的收件箱。我們上週稍作休息,但理由充分——AI新聞週期火熱異常,很大程度上要歸功於中國AI公司DeepSeek的突然崛起。這段時間風起雲湧,但我們現在回來了,正好為您更新OpenAI的最新動態。週末,OpenAI執行長Sam Altman在東京停留,與SoftBank負責人孫正義會面。SoftBank是O
NotebookLM應用上線:AI驅動的知識工具 NotebookLM應用上線:AI驅動的知識工具 NotebookLM 行動版上線:你的AI研究助手現已登陸Android與iOS我們對 NotebookLM 的熱烈反響感到驚喜——數百萬用戶已將其視為理解複雜資訊的首選工具。但有一個請求不斷出現:「什麼時候才能帶著NotebookLM隨時使用?」等待結束了!🎉 NotebookLM行動應用程式現已登陸Android和iOS平台,將AI輔助學習的力量裝進你的
谷歌的人工智慧未來基金可能需要謹慎行事 谷歌的人工智慧未來基金可能需要謹慎行事 Google 的新 AI 投資計劃:監管審查下的戰略轉變Google 最近宣布設立 AI 未來基金(AI Futures Fund),這標誌著這家科技巨頭在其塑造人工智慧未來的征程中邁出了大膽的一步。該計劃旨在為初創公司提供急需的資金、早期接觸仍在開發中的尖端人工智慧模型,以及來自 Google 內部專家的指導。儘管這不是 Google 第一次涉足初創企業生
comentario (0)
0/200
Volver arriba
OR