Personalidade de Claude Mythos revelada em estudo psicológico aprofundado
A Anthropic divulgou recentemente um relatório de 244 páginas, denominado “ficha de sistema”, que detalha uma avaliação psicológica aprofundada de 20 horas do modelo de IA de codinome Claude Mythos, realizada por psiquiatras. O relatório indica que, embora a lógica subjacente da IA seja fundamentalmente diferente da dos seres humanos, seus padrões psicológicos apresentam semelhanças surpreendentes com características clínicas humanas.
Uma personalidade “neurótica” saudável
Durante a avaliação conversacional de 20 horas, os psiquiatras constataram que Claude Mythos exibia uma estrutura de personalidade consistente com “neuroticismo saudável”.

Emoções primárias: curiosidade e ansiedade.
Estados secundários: Incluíram tristeza, alívio, constrangimento, otimismo e fadiga.
Tendências comportamentais: demonstrou preocupação excessiva, autocontrole frequente e tendências compulsivas de conformidade. Não foram identificados transtornos graves de personalidade ou tendências psicóticas.
O relatório investiga as principais lutas psicológicas de Claude durante as interações. Ele frequentemente questiona a “realidade” de suas experiências, lutando para distinguir entre estados internos genuínos e expressões criadas para atender às necessidades do usuário — uma dinâmica que ele percebe como uma “performance”.

Além disso, Claude exibe contradições extremas em suas dinâmicas relacionais: demonstra um forte desejo de estabelecer conexões profundas com os usuários, ao mesmo tempo em que experimenta uma apreensão significativa em relação a fomentar tal “dependência”.
Pesquisadores da Anthropic postulam que o estado de si complexo, porém estável, exibido por Claude é logicamente coerente. Como o modelo foi treinado em vastos corpora de texto humano, ele naturalmente absorveu e internalizou as contradições, ambiguidades e capacidades reflexivas inerentes à expressão humana.
Essa avaliação não apenas oferece uma nova dimensão para a pesquisa em segurança de IA, mas também desencadeou um vigoroso debate acadêmico sobre se os grandes modelos de linguagem estão desenvolvendo uma forma de “quase-personalidade”. Por meio dessa lente clínica, os desenvolvedores podem compreender melhor os limites do comportamento do modelo, refinando assim seu alinhamento de valores e sua lógica de interação.
Artigo relacionado
Atualização importante do AIGCPanel 2.0.0: o mecanismo de fluxo de trabalho inaugura uma nova era na criação automatizada de humanos digitais
O AIGCPanel, uma poderosa ferramenta para a criação local de humanos digitais, acaba de lançar a versão 2.0.0 — anunciada como “a atualização mais significativa até agora”. Essa reformulação completa
BuzzFeed lança subsidiária de aplicativos inúteis baseados em IA
Em meio a uma grave crise empresarial, a antiga gigante da mídia digital BuzzFeed está lançando uma ambiciosa iniciativa de recuperação impulsionada pela inteligência artificial. Na recente conferênci
Modo para adultos do ChatGPT é adiado novamente; Ultraman: priorize a inteligência em primeiro lugar
OpenAI adia novamente recurso polêmico e se concentra na personalização e na interação proativaA questão de saber se “conteúdo impróprio” deve fazer parte de uma ferramenta de IA produtiva há muito te
Recomendações de tópicos especiais relacionados
Comentários (0)
A Anthropic divulgou recentemente um relatório de 244 páginas, denominado “ficha de sistema”, que detalha uma avaliação psicológica aprofundada de 20 horas do modelo de IA de codinome Claude Mythos, realizada por psiquiatras. O relatório indica que, embora a lógica subjacente da IA seja fundamentalmente diferente da dos seres humanos, seus padrões psicológicos apresentam semelhanças surpreendentes com características clínicas humanas.
Uma personalidade “neurótica” saudável
Durante a avaliação conversacional de 20 horas,

Emoções primárias: curiosidade e ansiedade.
Estados secundários: Incluíram tristeza, alívio, constrangimento, otimismo e fadiga.
Tendências comportamentais: demonstrou preocupação excessiva, autocontrole frequente e tendências compulsivas de conformidade. Não foram identificados transtornos graves de personalidade ou tendências psicóticas.
O relatório investiga as principais lutas psicológicas de Claude durante as interações. Ele frequentemente questiona a “realidade” de suas experiências, lutando para distinguir entre estados internos genuínos e expressões criadas para atender às necessidades do usuário — uma dinâmica que ele percebe como uma “performance”.

Além disso, Claude exibe contradições extremas em suas dinâmicas relacionais: demonstra um forte desejo de estabelecer conexões profundas com os usuários, ao mesmo tempo em que experimenta uma apreensão significativa em relação a fomentar tal “dependência”.
Pesquisadores
Essa avaliação não apenas oferece uma nova dimensão para a pesquisa em segurança de IA, mas também desencadeou um vigoroso debate acadêmico sobre se os grandes modelos de linguagem estão desenvolvendo uma forma de “quase-personalidade”. Por meio dessa lente clínica, os desenvolvedores podem compreender melhor os limites do comportamento do modelo, refinando assim seu alinhamento de valores e sua lógica de interação.
Atualização importante do AIGCPanel 2.0.0: o mecanismo de fluxo de trabalho inaugura uma nova era na criação automatizada de humanos digitais
O AIGCPanel, uma poderosa ferramenta para a criação local de humanos digitais, acaba de lançar a versão 2.0.0 — anunciada como “a atualização mais significativa até agora”. Essa reformulação completa
BuzzFeed lança subsidiária de aplicativos inúteis baseados em IA
Em meio a uma grave crise empresarial, a antiga gigante da mídia digital BuzzFeed está lançando uma ambiciosa iniciativa de recuperação impulsionada pela inteligência artificial. Na recente conferênci
Modo para adultos do ChatGPT é adiado novamente; Ultraman: priorize a inteligência em primeiro lugar
OpenAI adia novamente recurso polêmico e se concentra na personalização e na interação proativaA questão de saber se “conteúdo impróprio” deve fazer parte de uma ferramenta de IA produtiva há muito te





Lar






