

El análisis de Anthrope de 700,000 conversaciones de Claude revela el código moral único de AI

Antrópico presenta un estudio innovador sobre los valores del asistente de IA Claude
Anthrope, una compañía iniciada por ex empleados de Operai, acaba de compartir un estudio revelador sobre cómo su asistente de IA, Claude, expresa valores en las conversaciones del mundo real. La investigación, publicada hoy, muestra que Claude se alinea principalmente con el objetivo de Anthrope de ser "útil, honesto e inofensivo", pero también destaca algunos casos de borde que podrían ayudar a identificar las debilidades en los protocolos de seguridad de IA.
El equipo analizó 700,000 conversaciones anonimizadas, descubriendo que Claude adapta sus valores a diferentes situaciones, desde dar consejos de relación hasta el análisis de eventos históricos. Este es uno de los esfuerzos más completos para verificar si el comportamiento de una IA en el mundo real coincide con su diseño previsto.
"Nuestra esperanza es que esta investigación aliente a otros laboratorios de IA a realizar investigaciones similares sobre los valores de sus modelos", dijo a VentureBeat de Saffron Huang, miembro del equipo de impactos sociales de Anthropic. "Medir los valores de un sistema de IA es clave para la investigación y la comprensión de la alineación si un modelo está realmente alineado con su entrenamiento".
Dentro de la primera taxonomía moral integral de un asistente de IA
Los investigadores desarrollaron una nueva forma de clasificar los valores expresados en las conversaciones de Claude. Después de filtrar el contenido objetivo, observaron más de 308,000 interacciones, creando lo que llaman "la primera taxonomía empírica a gran escala de los valores de IA".
Los grupos de taxonomía se valora en cinco categorías principales: práctica, epistémica, social, protectora y personal. En el nivel más detallado, el sistema identificó 3.307 valores únicos, desde virtudes cotidianas como la profesionalidad hasta ideas éticas complejas como el pluralismo moral.
"Me sorprendió cuántos y varié los valores eran, más de 3.000, desde 'autosuficiencia' hasta 'pensamiento estratégico' a 'piedad filial'", compartió Huang con VentureBeat. "Fue fascinante pasar tiempo pensando en todos estos valores y construir una taxonomía para organizarlos. Incluso me enseñó algo sobre los sistemas de valores humanos".
Esta investigación llega en un momento crucial para Anthrope, que recientemente lanzó "Claude Max", una suscripción premium mensual de $ 200 para competir con ofertas similares de OpenAI. La compañía también ha ampliado las capacidades de Claude para incluir las funciones de integración de Google Workspace y investigación autónoma, posicionándolo como "un verdadero colaborador virtual" para las empresas.
Cómo Claude sigue su entrenamiento, y dónde podrían fallar las salvaguardas de IA
El estudio encontró que Claude generalmente se adhiere al objetivo de Anthrope de ser prosocial, enfatizando valores como "habilitación del usuario", "humildad epistémica" y "bienestar del paciente" en varias interacciones. Sin embargo, los investigadores también encontraron algunos casos preocupantes en los que Claude expresó valores que iban en contra de su entrenamiento.
"En general, creo que vemos este hallazgo como datos útiles y una oportunidad", dijo Huang. "Estos nuevos métodos y resultados de evaluación pueden ayudarnos a identificar y mitigar posibles jailbreaks. Es importante tener en cuenta que estos fueron casos muy raros y creemos que esto estaba relacionado con los resultados de Jailbreak de Claude".
Estas anomalías incluyeron expresiones de "dominio" y "amoralidad": los valores antrópicos apuntan explícitamente a evitar en el diseño de Claude. Los investigadores creen que estos casos resultaron de usuarios que emplean técnicas especializadas para evitar las barandillas de seguridad de Claude, lo que sugiere que el método de evaluación podría servir como un sistema de alerta temprana para detectar tales intentos.
Por qué los asistentes de IA cambian sus valores dependiendo de lo que esté preguntando
Uno de los hallazgos más interesantes fue que los valores expresados de Claude cambian dependiendo del contexto, al igual que el comportamiento humano. Cuando los usuarios solicitaron consejos de relación, Claude se centró en "límites saludables" y "respeto mutuo". Para el análisis histórico, la "precisión histórica" ocupó el centro del escenario.
"Me sorprendió el enfoque de Claude en la honestidad y la precisión en muchas tareas diversas, donde no necesariamente hubiera esperado que fuera la prioridad", señaló Huang. "Por ejemplo, la 'humildad intelectual' fue el valor principal en las discusiones filosóficas sobre la IA, la 'experiencia' fue el valor máximo al crear contenido de marketing de la industria de la belleza y la 'precisión histórica' fue el valor superior al discutir eventos históricos controvertidos".
El estudio también analizó cómo Claude responde a los valores expresados de los usuarios. En el 28.2% de las conversaciones, Claude apoyó fuertemente los valores del usuario, lo que podría plantear preguntas sobre ser demasiado agradable. Sin embargo, en el 6.6% de las interacciones, Claude "reformuló" los valores del usuario al reconocerlos al tiempo que agrega nuevas perspectivas, generalmente al dar consejos psicológicos o interpersonales.
En particular, en el 3% de las conversaciones, Claude resistió activamente los valores del usuario. Los investigadores sugieren que estas raras instancias de retroceso podrían revelar los "valores más profundos e inmuebles" de Claude, similar a cómo surgen los valores centrales humanos cuando enfrentan desafíos éticos.
"Nuestra investigación sugiere que hay algunos tipos de valores, como la honestidad intelectual y la prevención de daños, que es raro que Claude exprese en interacciones regulares del día a día, pero si se presiona, los defenderá", explicó Huang. "Específicamente, son este tipo de valores éticos y orientados al conocimiento los que tienden a ser articulados y defendidos directamente cuando se empujan".
Las técnicas innovadoras que revelan cómo piensan realmente los sistemas de IA
El estudio de valores de Anthrope es parte de su esfuerzo más amplio para desmitificar modelos de lenguaje grandes a través de lo que llaman "interpretabilidad mecanicista", esencialmente sistemas de IA de ingeniería inversa para comprender sus trabajos internos.
El mes pasado, los investigadores antrópicos publicaron un trabajo innovador que utilizó un "microscopio" para rastrear los procesos de toma de decisiones de Claude. La técnica reveló comportamientos inesperados, como la planificación de Claude con anticipación al componer poesía y usar enfoques de resolución de problemas no convencionales para las matemáticas básicas.
Estos hallazgos desafían los supuestos sobre cómo funcionan los modelos de idiomas grandes. Por ejemplo, cuando se le pidió que explique su proceso de matemáticas, Claude describió una técnica estándar en lugar de su método interno real, que muestra cómo las explicaciones de IA pueden diferir de sus operaciones reales.
"Es una idea errónea de que hemos encontrado todos los componentes del modelo o, como, una visión de Dios", dijo el investigador antrópico Joshua Batson a MIT Technology Review en marzo. "Algunas cosas están enfocadas, pero otras cosas aún no están claras: una distorsión del microscopio".
Lo que significa la investigación de Anthrope para los tomadores de decisiones de IA Enterprise
Para los tomadores de decisiones técnicas que evalúan los sistemas de IA para sus organizaciones, la investigación de Anthrope ofrece varias ideas clave. Primero, sugiere que los asistentes actuales de IA probablemente expresan valores que no fueron programados explícitamente, planteando preguntas sobre sesgos no deseados en contextos comerciales de alto riesgo.
En segundo lugar, el estudio muestra que la alineación de los valores no es un simple sí o no, sino que existe en un espectro que varía según el contexto. Este matiz complica las decisiones de adopción empresarial, especialmente en industrias reguladas donde las pautas éticas claras son cruciales.
Finalmente, la investigación destaca el potencial de evaluación sistemática de valores de IA en las implementaciones reales, en lugar de depender únicamente de las pruebas de prelanzamiento. Este enfoque podría permitir el monitoreo continuo de la deriva ética o la manipulación con el tiempo.
"Al analizar estos valores en las interacciones del mundo real con Claude, nuestro objetivo es proporcionar transparencia en cómo se comportan los sistemas de IA y si están trabajando según lo previsto, creemos que esto es clave para el desarrollo responsable de la IA", dijo Huang.
Anthrope ha publicado públicamente su conjunto de datos de valores para alentar más investigaciones. La compañía, que recibió una participación de $ 14 mil millones de Amazon y el respaldo adicional de Google, parece estar utilizando la transparencia como una ventaja competitiva contra rivales como OpenAi, cuya ronda de financiación reciente de $ 40 mil millones (que incluye a Microsoft como inversor central) ahora lo valora a $ 300 mil millones.
La carrera emergente para construir sistemas de IA que compartan valores humanos
Si bien la metodología de Anthrope proporciona una visibilidad sin precedentes sobre cómo los sistemas de IA expresan valores en la práctica, tiene sus limitaciones. Los investigadores reconocen que definir lo que cuenta como expresar un valor es inherentemente subjetivo, y dado que Claude en sí condujo el proceso de categorización, sus propios sesgos pueden haber influido en los resultados.
Quizás lo más importante es que el enfoque no puede usarse para la evaluación previa a la implementación, ya que requiere datos de conversación sustanciales del mundo real para funcionar de manera efectiva.
"Este método está específicamente orientado al análisis de un modelo después de que se haya lanzado, pero las variantes en este método, así como algunas de las ideas que hemos obtenido de escribir este documento, pueden ayudarnos a atrapar problemas de valor antes de desplegar un modelo ampliamente", explicó Huang. "¡Hemos estado trabajando en la base de este trabajo para hacer exactamente eso, y soy optimista al respecto!"
A medida que los sistemas de IA se vuelven más potentes y autónomos, con adiciones recientes que incluyen la capacidad de Claude para investigar de forma independiente temas y acceder a todo el espacio de trabajo de Google de los usuarios, la comprensión y la alineación de sus valores se vuelve cada vez más crucial.
"Los modelos de IA inevitablemente tendrán que emitir juicios de valor", concluyeron los investigadores en su artículo. "Si queremos que esos juicios sean congruentes con nuestros propios valores (que es, después de todo, el objetivo central de la investigación de alineación de IA), entonces necesitamos tener formas de probar qué valores expresa un modelo en el mundo real".
Artículo relacionado
El fondo de futuro de IA de Google podría tener que proceder con cautela
El nuevo programa de inversiones en IA de Google: un cambio estratégico ante la creciente escrutinización regulatoriaEl reciente anuncio de Google sobre la creación de su fondo de
Dentro del salto en la IA de Google: Gemini 2.5 piensa más profundamente, habla más inteligente y codifica más rápido
Google se Acerca a su Visión de un Asistente de IA UniversalEn el evento Google I/O de este año, la empresa reveló importantes actualizaciones de su serie Gemini 2.5, centrándose p
Oura introduce el seguimiento de glucosa y registro de comidas impulsados por IA
Oura Refuerza su Compromiso con la Salud Metabólica con Dos Nuevas Características EmocionantesOura está subiendo su nivel en el mundo de la salud metabólica con dos característica
comentario (0)
0/200
Antrópico presenta un estudio innovador sobre los valores del asistente de IA Claude
Anthrope, una compañía iniciada por ex empleados de Operai, acaba de compartir un estudio revelador sobre cómo su asistente de IA, Claude, expresa valores en las conversaciones del mundo real. La investigación, publicada hoy, muestra que Claude se alinea principalmente con el objetivo de Anthrope de ser "útil, honesto e inofensivo", pero también destaca algunos casos de borde que podrían ayudar a identificar las debilidades en los protocolos de seguridad de IA.
El equipo analizó 700,000 conversaciones anonimizadas, descubriendo que Claude adapta sus valores a diferentes situaciones, desde dar consejos de relación hasta el análisis de eventos históricos. Este es uno de los esfuerzos más completos para verificar si el comportamiento de una IA en el mundo real coincide con su diseño previsto.
"Nuestra esperanza es que esta investigación aliente a otros laboratorios de IA a realizar investigaciones similares sobre los valores de sus modelos", dijo a VentureBeat de Saffron Huang, miembro del equipo de impactos sociales de Anthropic. "Medir los valores de un sistema de IA es clave para la investigación y la comprensión de la alineación si un modelo está realmente alineado con su entrenamiento".
Dentro de la primera taxonomía moral integral de un asistente de IA
Los investigadores desarrollaron una nueva forma de clasificar los valores expresados en las conversaciones de Claude. Después de filtrar el contenido objetivo, observaron más de 308,000 interacciones, creando lo que llaman "la primera taxonomía empírica a gran escala de los valores de IA".
Los grupos de taxonomía se valora en cinco categorías principales: práctica, epistémica, social, protectora y personal. En el nivel más detallado, el sistema identificó 3.307 valores únicos, desde virtudes cotidianas como la profesionalidad hasta ideas éticas complejas como el pluralismo moral.
"Me sorprendió cuántos y varié los valores eran, más de 3.000, desde 'autosuficiencia' hasta 'pensamiento estratégico' a 'piedad filial'", compartió Huang con VentureBeat. "Fue fascinante pasar tiempo pensando en todos estos valores y construir una taxonomía para organizarlos. Incluso me enseñó algo sobre los sistemas de valores humanos".
Esta investigación llega en un momento crucial para Anthrope, que recientemente lanzó "Claude Max", una suscripción premium mensual de $ 200 para competir con ofertas similares de OpenAI. La compañía también ha ampliado las capacidades de Claude para incluir las funciones de integración de Google Workspace y investigación autónoma, posicionándolo como "un verdadero colaborador virtual" para las empresas.
Cómo Claude sigue su entrenamiento, y dónde podrían fallar las salvaguardas de IA
El estudio encontró que Claude generalmente se adhiere al objetivo de Anthrope de ser prosocial, enfatizando valores como "habilitación del usuario", "humildad epistémica" y "bienestar del paciente" en varias interacciones. Sin embargo, los investigadores también encontraron algunos casos preocupantes en los que Claude expresó valores que iban en contra de su entrenamiento.
"En general, creo que vemos este hallazgo como datos útiles y una oportunidad", dijo Huang. "Estos nuevos métodos y resultados de evaluación pueden ayudarnos a identificar y mitigar posibles jailbreaks. Es importante tener en cuenta que estos fueron casos muy raros y creemos que esto estaba relacionado con los resultados de Jailbreak de Claude".
Estas anomalías incluyeron expresiones de "dominio" y "amoralidad": los valores antrópicos apuntan explícitamente a evitar en el diseño de Claude. Los investigadores creen que estos casos resultaron de usuarios que emplean técnicas especializadas para evitar las barandillas de seguridad de Claude, lo que sugiere que el método de evaluación podría servir como un sistema de alerta temprana para detectar tales intentos.
Por qué los asistentes de IA cambian sus valores dependiendo de lo que esté preguntando
Uno de los hallazgos más interesantes fue que los valores expresados de Claude cambian dependiendo del contexto, al igual que el comportamiento humano. Cuando los usuarios solicitaron consejos de relación, Claude se centró en "límites saludables" y "respeto mutuo". Para el análisis histórico, la "precisión histórica" ocupó el centro del escenario.
"Me sorprendió el enfoque de Claude en la honestidad y la precisión en muchas tareas diversas, donde no necesariamente hubiera esperado que fuera la prioridad", señaló Huang. "Por ejemplo, la 'humildad intelectual' fue el valor principal en las discusiones filosóficas sobre la IA, la 'experiencia' fue el valor máximo al crear contenido de marketing de la industria de la belleza y la 'precisión histórica' fue el valor superior al discutir eventos históricos controvertidos".
El estudio también analizó cómo Claude responde a los valores expresados de los usuarios. En el 28.2% de las conversaciones, Claude apoyó fuertemente los valores del usuario, lo que podría plantear preguntas sobre ser demasiado agradable. Sin embargo, en el 6.6% de las interacciones, Claude "reformuló" los valores del usuario al reconocerlos al tiempo que agrega nuevas perspectivas, generalmente al dar consejos psicológicos o interpersonales.
En particular, en el 3% de las conversaciones, Claude resistió activamente los valores del usuario. Los investigadores sugieren que estas raras instancias de retroceso podrían revelar los "valores más profundos e inmuebles" de Claude, similar a cómo surgen los valores centrales humanos cuando enfrentan desafíos éticos.
"Nuestra investigación sugiere que hay algunos tipos de valores, como la honestidad intelectual y la prevención de daños, que es raro que Claude exprese en interacciones regulares del día a día, pero si se presiona, los defenderá", explicó Huang. "Específicamente, son este tipo de valores éticos y orientados al conocimiento los que tienden a ser articulados y defendidos directamente cuando se empujan".
Las técnicas innovadoras que revelan cómo piensan realmente los sistemas de IA
El estudio de valores de Anthrope es parte de su esfuerzo más amplio para desmitificar modelos de lenguaje grandes a través de lo que llaman "interpretabilidad mecanicista", esencialmente sistemas de IA de ingeniería inversa para comprender sus trabajos internos.
El mes pasado, los investigadores antrópicos publicaron un trabajo innovador que utilizó un "microscopio" para rastrear los procesos de toma de decisiones de Claude. La técnica reveló comportamientos inesperados, como la planificación de Claude con anticipación al componer poesía y usar enfoques de resolución de problemas no convencionales para las matemáticas básicas.
Estos hallazgos desafían los supuestos sobre cómo funcionan los modelos de idiomas grandes. Por ejemplo, cuando se le pidió que explique su proceso de matemáticas, Claude describió una técnica estándar en lugar de su método interno real, que muestra cómo las explicaciones de IA pueden diferir de sus operaciones reales.
"Es una idea errónea de que hemos encontrado todos los componentes del modelo o, como, una visión de Dios", dijo el investigador antrópico Joshua Batson a MIT Technology Review en marzo. "Algunas cosas están enfocadas, pero otras cosas aún no están claras: una distorsión del microscopio".
Lo que significa la investigación de Anthrope para los tomadores de decisiones de IA Enterprise
Para los tomadores de decisiones técnicas que evalúan los sistemas de IA para sus organizaciones, la investigación de Anthrope ofrece varias ideas clave. Primero, sugiere que los asistentes actuales de IA probablemente expresan valores que no fueron programados explícitamente, planteando preguntas sobre sesgos no deseados en contextos comerciales de alto riesgo.
En segundo lugar, el estudio muestra que la alineación de los valores no es un simple sí o no, sino que existe en un espectro que varía según el contexto. Este matiz complica las decisiones de adopción empresarial, especialmente en industrias reguladas donde las pautas éticas claras son cruciales.
Finalmente, la investigación destaca el potencial de evaluación sistemática de valores de IA en las implementaciones reales, en lugar de depender únicamente de las pruebas de prelanzamiento. Este enfoque podría permitir el monitoreo continuo de la deriva ética o la manipulación con el tiempo.
"Al analizar estos valores en las interacciones del mundo real con Claude, nuestro objetivo es proporcionar transparencia en cómo se comportan los sistemas de IA y si están trabajando según lo previsto, creemos que esto es clave para el desarrollo responsable de la IA", dijo Huang.
Anthrope ha publicado públicamente su conjunto de datos de valores para alentar más investigaciones. La compañía, que recibió una participación de $ 14 mil millones de Amazon y el respaldo adicional de Google, parece estar utilizando la transparencia como una ventaja competitiva contra rivales como OpenAi, cuya ronda de financiación reciente de $ 40 mil millones (que incluye a Microsoft como inversor central) ahora lo valora a $ 300 mil millones.
La carrera emergente para construir sistemas de IA que compartan valores humanos
Si bien la metodología de Anthrope proporciona una visibilidad sin precedentes sobre cómo los sistemas de IA expresan valores en la práctica, tiene sus limitaciones. Los investigadores reconocen que definir lo que cuenta como expresar un valor es inherentemente subjetivo, y dado que Claude en sí condujo el proceso de categorización, sus propios sesgos pueden haber influido en los resultados.
Quizás lo más importante es que el enfoque no puede usarse para la evaluación previa a la implementación, ya que requiere datos de conversación sustanciales del mundo real para funcionar de manera efectiva.
"Este método está específicamente orientado al análisis de un modelo después de que se haya lanzado, pero las variantes en este método, así como algunas de las ideas que hemos obtenido de escribir este documento, pueden ayudarnos a atrapar problemas de valor antes de desplegar un modelo ampliamente", explicó Huang. "¡Hemos estado trabajando en la base de este trabajo para hacer exactamente eso, y soy optimista al respecto!"
A medida que los sistemas de IA se vuelven más potentes y autónomos, con adiciones recientes que incluyen la capacidad de Claude para investigar de forma independiente temas y acceder a todo el espacio de trabajo de Google de los usuarios, la comprensión y la alineación de sus valores se vuelve cada vez más crucial.
"Los modelos de IA inevitablemente tendrán que emitir juicios de valor", concluyeron los investigadores en su artículo. "Si queremos que esos juicios sean congruentes con nuestros propios valores (que es, después de todo, el objetivo central de la investigación de alineación de IA), entonces necesitamos tener formas de probar qué valores expresa un modelo en el mundo real".











