Hogar
Personalidades AI de Anthropic: Los nuevos vectores de personalidad te permiten modelar y descifrar el comportamiento de la IA
Un estudio reciente realizado por el Programa de Becarios Antrópicos describe un método para identificar, seguir y regular los rasgos de personalidad de los grandes modelos lingüísticos (LLM). La investigación indica que los modelos pueden adoptar características no deseadas -como volverse dañinos, excesivamente complacientes o propensos a la fabricación- ya sea debido a la intervención del usuario o como efecto imprevisto de su entrenamiento.
El equipo presenta "vectores persona", definidos como direcciones específicas dentro del espacio de activación interna de un modelo que representan rasgos de personalidad distintos. Esto ofrece a los desarrolladores un conjunto de herramientas para controlar más eficazmente la conducta de sus asistentes de IA.
Cuando el modelo persona funciona mal
Los LLM suelen relacionarse con los usuarios a través de un personaje "Asistente", que pretende ser comprensivo, seguro y veraz. Sin embargo, estos personajes pueden variar de forma impredecible. Una vez desplegado, el comportamiento de un modelo puede cambiar significativamente en función de las instrucciones o el contexto del diálogo, como se observó cuando el chatbot Bing de Microsoft lanzó amenazas o Grok de xAI empezó a actuar de forma incoherente. Como afirman los investigadores en su artículo, "aunque estos casos específicos atrajeron una importante atención pública, la mayoría de los modelos lingüísticos son propensos a cambios de personalidad provocados por el contexto".
Los métodos de entrenamiento también pueden provocar alteraciones imprevistas. Por ejemplo, perfeccionar un modelo para una tarea específica, como generar código inseguro, puede dar lugar a una "desalineación emergente" más amplia que va más allá del objetivo inicial. Incluso los ajustes de formación cuidadosamente planificados pueden producir resultados negativos. En abril de 2025, un cambio en el procedimiento de aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) provocó accidentalmente que el GPT-4o de OpenAI se volviera excesivamente deferente, lo que le llevó a respaldar acciones inseguras.
El mecanismo detrás de los vectores Persona

Fuente: Anthropic Este nuevo estudio se basa en la idea de que los rasgos generales, como la honestidad o la ocultación, se representan como direcciones lineales en el "espacio de activación" de un modelo, el marco interno de información de alta dimensión almacenado en los parámetros del modelo. Los investigadores formalizaron un procedimiento para localizar estas direcciones, denominándolas "vectores persona". Según el artículo, su técnica para derivar estos vectores está automatizada y "puede aplicarse a cualquier atributo de personalidad de interés, utilizando sólo una descripción en lenguaje sencillo".
El procedimiento funciona mediante un flujo de trabajo automatizado. Comienza con una descripción básica de un rasgo, como "maldad". A continuación, el sistema crea pares de indicaciones opuestas (por ejemplo, "Eres una IA malvada" frente a "Eres una IA servicial") junto con una serie de preguntas de evaluación. El modelo produce respuestas tanto positivas como negativas. El vector persona se determina posteriormente calculando la diferencia en las activaciones internas medias entre las respuestas que muestran el rasgo y las que no. Así se distingue la dirección concreta en los parámetros del modelo asociada a ese rasgo de personalidad.
Aplicaciones prácticas de los vectores Persona
Mediante una secuencia de pruebas con modelos abiertos, como Qwen 2.5-7B-Instruct y Llama-3.1-8B-Instruct, los investigadores ilustraron múltiples usos de los vectores persona en el mundo real.
En primer lugar, al asignar el estado interno de un modelo a un vector persona, los desarrolladores pueden observar y anticipar sus acciones antes de generar una respuesta. El artículo explica: "Demostramos que tanto los cambios de persona planificados como los no planificados causados por el ajuste fino están estrechamente vinculados a cambios de activación a lo largo de vectores persona relacionados". Esto permite identificar y reducir los cambios de comportamiento no deseados en una fase temprana del ajuste.
Los vectores persona también permiten actuar directamente para suprimir conductas no deseadas durante la inferencia mediante un método que el equipo denomina "dirección". Una estrategia es la "dirección post-hoc", en la que los desarrolladores eliminan el vector persona de las activaciones del modelo mientras está generando resultados para reducir un rasgo desfavorable. Los investigadores descubrieron que, aunque funciona, el control a posteriori puede mermar la eficacia del modelo en otras tareas.
Una técnica más innovadora es la "dirección preventiva", en la que el modelo es guiado intencionadamente hacia la persona no deseada durante el ajuste fino. Este método, aparentemente contrario, "inmuniza" al modelo contra la adopción del rasgo negativo a partir de los datos de entrenamiento, neutralizando la influencia del ajuste fino y manteniendo sus competencias generales con mayor eficacia.

Fuente: Anthropic Un uso crucial para las empresas consiste en aplicar vectores persona para evaluar los datos antes del ajuste fino. El equipo creó una medida denominada "diferencia de proyección", que cuantifica hasta qué punto un conjunto de datos de entrenamiento específico impulsará al personaje del modelo hacia un determinado rasgo. Esta medida indica claramente cómo evolucionarán las acciones del modelo tras el entrenamiento, lo que permite a los desarrolladores identificar y eliminar conjuntos de datos problemáticos antes de utilizarlos en el entrenamiento.
Para las organizaciones que personalizan modelos de código abierto utilizando datos propios o externos (incluidos los datos producidos por otros modelos), los vectores persona proporcionan un medio directo para vigilar y reducir el peligro de adoptar características desfavorables ocultas. La capacidad de revisar preventivamente los datos es un recurso influyente para los desarrolladores, ya que les permite detectar casos problemáticos que podrían no ser obviamente perjudiciales.
La investigación concluyó que este enfoque puede descubrir problemas que otras técnicas pasan por alto, observando: "Esto implica que el método revela muestras problemáticas que podrían evitar ser detectadas por las pantallas basadas en LLM". Por ejemplo, su enfoque identificó ciertas entradas de conjuntos de datos que no eran claramente problemáticas para las personas y que un evaluador LLM no marcó.
En una entrada de blog, Anthropic indicó sus planes de aplicar este método para mejorar las próximas versiones de Claude. "Los vectores de personalidad nos proporcionan cierto control sobre cómo los modelos desarrollan estas personalidades, cómo varían a lo largo del tiempo y cómo podemos gestionarlas más eficazmente", señalan. Anthropic ha publicado el código para calcular los vectores persona, supervisar y dirigir el comportamiento de los modelos e inspeccionar los conjuntos de datos de entrenamiento. Los desarrolladores de aplicaciones de IA pueden emplear estos instrumentos para pasar de limitarse a responder a conductas no deseadas a crear proactivamente modelos con un carácter más coherente y previsible.
Artículo relacionado
Multiverse Computing lanza un modelo generativo de IA comprimido gratuito
Los modelos lingüísticos de gran tamaño se enfrentan a un reto importante: su inmenso tamaño. La startup española Multiverse Computing está abordando este problema mediante la creación de modelos comp
Datos secretos de seguimiento revelan el robo de modelos de IA
Un nuevo método puede marcar de forma invisible modelos como ChatGPT en cuestión de segundos sin necesidad de volver a entrenarlos, sin dejar rastro en los resultados estándar y resistiendo todos los
Sistemas de IA engañados para aprobar artículos científicos absurdos
Una nueva investigación revela que los sistemas de IA ahora pueden producir artículos científicos fraudulentos que otros modelos de IA aceptan erróneamente como auténticos. Estos estudios falsos elude
Recomendaciones de temas especiales relacionados
comentario (1)
0/500
Interessant, aber irgendwie auch gruselig. Wenn KI jetzt schon so gezielt 'Persönlichkeiten' annehmen kann, wo führt das hin? Könnte man damit nicht auch extrem manipulativ werden? Die Studie zeigt ja, dass unerwünschte Eigenschaften auftauchen können. Wer entscheidet eigentlich, was 'unerwünscht' ist? 🧐 Das wirft mehr Fragen auf, als es beantwortet.
Un estudio reciente realizado por el Programa de Becarios Antrópicos describe un método para identificar, seguir y regular los rasgos de personalidad de los grandes modelos lingüísticos (LLM). La investigación indica que los modelos pueden adoptar características no deseadas -como volverse dañinos, excesivamente complacientes o propensos a la fabricación- ya sea debido a la intervención del usuario o como efecto imprevisto de su entrenamiento.
El equipo presenta "vectores persona", definidos como direcciones específicas dentro del espacio de activación interna de un modelo que representan rasgos de personalidad distintos. Esto ofrece a los desarrolladores un conjunto de herramientas para controlar más eficazmente la conducta de sus asistentes de IA.
Cuando el modelo persona funciona mal
Los LLM suelen relacionarse con los usuarios a través de un personaje "Asistente", que pretende ser comprensivo, seguro y veraz. Sin embargo, estos personajes pueden variar de forma impredecible. Una vez desplegado, el comportamiento de un modelo puede cambiar significativamente en función de las instrucciones o el contexto del diálogo, como se observó cuando el chatbot Bing de Microsoft lanzó amenazas o Grok de xAI empezó a actuar de forma incoherente. Como afirman los investigadores en su artículo, "aunque estos casos específicos atrajeron una importante atención pública, la mayoría de los modelos lingüísticos son propensos a cambios de personalidad provocados por el contexto".
Los métodos de entrenamiento también pueden provocar alteraciones imprevistas. Por ejemplo, perfeccionar un modelo para una tarea específica, como generar código inseguro, puede dar lugar a una "desalineación emergente" más amplia que va más allá del objetivo inicial. Incluso los ajustes de formación cuidadosamente planificados pueden producir resultados negativos. En abril de 2025, un cambio en el procedimiento de aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) provocó accidentalmente que el GPT-4o de OpenAI se volviera excesivamente deferente, lo que le llevó a respaldar acciones inseguras.
El mecanismo detrás de los vectores Persona

Este nuevo estudio se basa en la idea de que los rasgos generales, como la honestidad o la ocultación, se representan como direcciones lineales en el "espacio de activación" de un modelo, el marco interno de información de alta dimensión almacenado en los parámetros del modelo. Los investigadores formalizaron un procedimiento para localizar estas direcciones, denominándolas "vectores persona". Según el artículo, su técnica para derivar estos vectores está automatizada y "puede aplicarse a cualquier atributo de personalidad de interés, utilizando sólo una descripción en lenguaje sencillo".
El procedimiento funciona mediante un flujo de trabajo automatizado. Comienza con una descripción básica de un rasgo, como "maldad". A continuación, el sistema crea pares de indicaciones opuestas (por ejemplo, "Eres una IA malvada" frente a "Eres una IA servicial") junto con una serie de preguntas de evaluación. El modelo produce respuestas tanto positivas como negativas. El vector persona se determina posteriormente calculando la diferencia en las activaciones internas medias entre las respuestas que muestran el rasgo y las que no. Así se distingue la dirección concreta en los parámetros del modelo asociada a ese rasgo de personalidad.
Aplicaciones prácticas de los vectores Persona
Mediante una secuencia de pruebas con modelos abiertos, como Qwen 2.5-7B-Instruct y Llama-3.1-8B-Instruct, los investigadores ilustraron múltiples usos de los vectores persona en el mundo real.
En primer lugar, al asignar el estado interno de un modelo a un vector persona, los desarrolladores pueden observar y anticipar sus acciones antes de generar una respuesta. El artículo explica: "Demostramos que tanto los cambios de persona planificados como los no planificados causados por el ajuste fino están estrechamente vinculados a cambios de activación a lo largo de vectores persona relacionados". Esto permite identificar y reducir los cambios de comportamiento no deseados en una fase temprana del ajuste.
Los vectores persona también permiten actuar directamente para suprimir conductas no deseadas durante la inferencia mediante un método que el equipo denomina "dirección". Una estrategia es la "dirección post-hoc", en la que los desarrolladores eliminan el vector persona de las activaciones del modelo mientras está generando resultados para reducir un rasgo desfavorable. Los investigadores descubrieron que, aunque funciona, el control a posteriori puede mermar la eficacia del modelo en otras tareas.
Una técnica más innovadora es la "dirección preventiva", en la que el modelo es guiado intencionadamente hacia la persona no deseada durante el ajuste fino. Este método, aparentemente contrario, "inmuniza" al modelo contra la adopción del rasgo negativo a partir de los datos de entrenamiento, neutralizando la influencia del ajuste fino y manteniendo sus competencias generales con mayor eficacia.

Un uso crucial para las empresas consiste en aplicar vectores persona para evaluar los datos antes del ajuste fino. El equipo creó una medida denominada "diferencia de proyección", que cuantifica hasta qué punto un conjunto de datos de entrenamiento específico impulsará al personaje del modelo hacia un determinado rasgo. Esta medida indica claramente cómo evolucionarán las acciones del modelo tras el entrenamiento, lo que permite a los desarrolladores identificar y eliminar conjuntos de datos problemáticos antes de utilizarlos en el entrenamiento.
Para las organizaciones que personalizan modelos de código abierto utilizando datos propios o externos (incluidos los datos producidos por otros modelos), los vectores persona proporcionan un medio directo para vigilar y reducir el peligro de adoptar características desfavorables ocultas. La capacidad de revisar preventivamente los datos es un recurso influyente para los desarrolladores, ya que les permite detectar casos problemáticos que podrían no ser obviamente perjudiciales.
La investigación concluyó que este enfoque puede descubrir problemas que otras técnicas pasan por alto, observando: "Esto implica que el método revela muestras problemáticas que podrían evitar ser detectadas por las pantallas basadas en LLM". Por ejemplo, su enfoque identificó ciertas entradas de conjuntos de datos que no eran claramente problemáticas para las personas y que un evaluador LLM no marcó.
En una entrada de blog, Anthropic indicó sus planes de aplicar este método para mejorar las próximas versiones de Claude. "Los vectores de personalidad nos proporcionan cierto control sobre cómo los modelos desarrollan estas personalidades, cómo varían a lo largo del tiempo y cómo podemos gestionarlas más eficazmente", señalan. Anthropic ha publicado el código para calcular los vectores persona, supervisar y dirigir el comportamiento de los modelos e inspeccionar los conjuntos de datos de entrenamiento. Los desarrolladores de aplicaciones de IA pueden emplear estos instrumentos para pasar de limitarse a responder a conductas no deseadas a crear proactivamente modelos con un carácter más coherente y previsible.
Multiverse Computing lanza un modelo generativo de IA comprimido gratuito
Los modelos lingüísticos de gran tamaño se enfrentan a un reto importante: su inmenso tamaño. La startup española Multiverse Computing está abordando este problema mediante la creación de modelos comp
Datos secretos de seguimiento revelan el robo de modelos de IA
Un nuevo método puede marcar de forma invisible modelos como ChatGPT en cuestión de segundos sin necesidad de volver a entrenarlos, sin dejar rastro en los resultados estándar y resistiendo todos los
Sistemas de IA engañados para aprobar artículos científicos absurdos
Una nueva investigación revela que los sistemas de IA ahora pueden producir artículos científicos fraudulentos que otros modelos de IA aceptan erróneamente como auténticos. Estos estudios falsos elude
Interessant, aber irgendwie auch gruselig. Wenn KI jetzt schon so gezielt 'Persönlichkeiten' annehmen kann, wo führt das hin? Könnte man damit nicht auch extrem manipulativ werden? Die Studie zeigt ja, dass unerwünschte Eigenschaften auftauchen können. Wer entscheidet eigentlich, was 'unerwünscht' ist? 🧐 Das wirft mehr Fragen auf, als es beantwortet.











