A análise do Anthropic de 700.000 conversas de Claude revela o código moral único da IA

Antrópicos revela o estudo inovador sobre os valores do assistente de IA Claude
A Anthropic, uma empresa iniciada por ex-funcionários do Openai, acaba de compartilhar um estudo revelador sobre como seu assistente de IA, Claude, expressa valores em conversas no mundo real. A pesquisa, divulgada hoje, mostra que Claude se alinha principalmente com o objetivo do Antrópico de ser "útil, honesto e inofensivo", mas também destaca alguns casos de borda que podem ajudar a identificar fraquezas nos protocolos de segurança da IA.
A equipe analisou 700.000 conversas anonimizadas, descobrindo que Claude adapta seus valores a diferentes situações, desde conselhos de relacionamento até a análise de eventos históricos. Este é um dos esforços mais abrangentes para verificar se o comportamento de uma IA no mundo real corresponde ao seu design pretendido.
"Nossa esperança é que esta pesquisa incentive outros laboratórios de IA a conduzir pesquisas semelhantes sobre os valores de seus modelos", disse a Saffron Huang, membro da equipe de impactos sociais da Societal's Societal. "Medir os valores de um sistema de IA é essencial para a pesquisa e a compreensão do alinhamento se um modelo está realmente alinhado com seu treinamento".
Dentro da primeira taxonomia moral abrangente de um assistente de IA
Os pesquisadores desenvolveram uma nova maneira de categorizar os valores expressos nas conversas de Claude. Depois de filtrar o conteúdo objetivo, eles analisaram mais de 308.000 interações, criando o que chamam de "a primeira taxonomia empírica em larga escala dos valores de IA".
Os grupos de taxonomia valorizam em cinco categorias principais: prático, epistêmico, social, protetor e pessoal. No nível mais detalhado, o sistema identificou 3.307 valores únicos, variando de virtudes cotidianas, como profissionalismo a idéias éticas complexas, como o pluralismo moral.
"Fiquei surpreso com quantos e variou os valores, mais de 3.000, de 'autoconfiança' ao 'pensamento estratégico' e 'piedade filial'", Huang compartilhou com a VentureBeat. "Foi fascinante gastar tempo pensando em todos esses valores e construindo uma taxonomia para organizá -los. Isso até me ensinou algo sobre sistemas de valor humano".
Esta pesquisa ocorre em um momento fundamental para o Antrópico, que lançou recentemente "Claude Max", uma assinatura premium mensal de US $ 200 para competir com ofertas semelhantes do OpenAI. A empresa também expandiu os recursos da Claude para incluir a integração do espaço de trabalho do Google e as funções de pesquisa autônoma, posicionando -a como "um verdadeiro colaborador virtual" para as empresas.
Como Claude segue seu treinamento - e onde as salvaguardas da AI podem falhar
O estudo descobriu que Claude geralmente se atende ao objetivo do antropic de ser pró -social, enfatizando valores como "ativação do usuário", "humildade epistêmica" e "bem -estar do paciente" em várias interações. No entanto, os pesquisadores também encontraram alguns casos preocupantes em que Claude expressou valores que foram contra seu treinamento.
"No geral, acho que vemos essa descoberta como dados úteis e uma oportunidade", disse Huang. "Esses novos métodos e resultados de avaliação podem nos ajudar a identificar e mitigar os possíveis jailbreaks. É importante observar que esses eram casos muito raros e acreditamos que isso estava relacionado a resultados de Claude de Claude".
Essas anomalias incluíram expressões de "domínio" e "amoralidade" - valoriza explicitamente explicitamente o objetivo de evitar no design de Claude. Os pesquisadores acreditam que esses casos resultaram de usuários que empregam técnicas especializadas para ignorar os corrimãos de segurança de Claude, sugerindo que o método de avaliação poderia servir como um sistema de alerta precoce para detectar essas tentativas.
Por que os assistentes de IA mudam seus valores, dependendo do que você está perguntando
Uma das descobertas mais interessantes foi que os valores expressos de Claude mudam, dependendo do contexto, assim como o comportamento humano. Quando os usuários pediram conselhos de relacionamento, Claude se concentrou em "limites saudáveis" e "respeito mútuo". Para análise histórica, a "precisão histórica" ficou no centro do palco.
"Fiquei surpreso com o foco de Claude na honestidade e precisão em muitas tarefas diversas, onde eu não necessariamente esperava que essa fosse a prioridade", observou Huang. "Por exemplo, 'humildade intelectual' foi o maior valor nas discussões filosóficas sobre a IA, a 'experiência' foi o maior valor ao criar conteúdo de marketing da indústria da beleza, e a 'precisão histórica' foi o maior valor ao discutir eventos históricos controversos".
O estudo também analisou como Claude responde aos próprios valores expressos dos usuários. Em 28,2% das conversas, Claude apoiou fortemente os valores do usuário, o que pode levantar questões sobre ser muito agradável. No entanto, em 6,6% das interações, Claude "reformulou" os valores do usuário, reconhecendo -os ao adicionar novas perspectivas, geralmente ao dar conselhos psicológicos ou interpessoais.
Mais notavelmente, em 3% das conversas, Claude resistiu ativamente aos valores do usuário. Os pesquisadores sugerem que esses raros casos de reação podem revelar os "valores mais profundos e imóveis" de Claude - semelhantes aos valores centrais humanos emergem ao enfrentar desafios éticos.
"Nossa pesquisa sugere que existem alguns tipos de valores, como honestidade intelectual e prevenção de danos, que é incomum Claude expressar em interações regulares e diárias, mas se for pressionado, os defenderá", explicou Huang. "Especificamente, são esses tipos de valores éticos e orientados para o conhecimento que tendem a ser articulados e defendidos diretamente quando empurrados".
As técnicas inovadoras revelando como os sistemas de IA realmente pensam
O estudo dos valores do Anthrópico faz parte de seu esforço mais amplo para desmistificar grandes modelos de linguagem através do que eles chamam de "interpretabilidade mecanicista"-essencialmente sistemas de IA de engenharia reversa para entender seu funcionamento interno.
No mês passado, pesquisadores antropia publicaram trabalhos inovadores que usaram um "microscópio" para rastrear os processos de tomada de decisão de Claude. A técnica revelou comportamentos inesperados, como o planejamento de Claude com antecedência ao compor poesia e usando abordagens não convencionais de solução de problemas para matemática básica.
Essas descobertas desafiam as suposições sobre como os modelos de linguagem grandes funcionam. Por exemplo, quando solicitado a explicar seu processo de matemática, Claude descreveu uma técnica padrão em vez de seu método interno real, mostrando como as explicações da IA podem diferir de suas operações reais.
"É um equívoco que encontramos todos os componentes do modelo ou, tipo, uma visão de Deus", disse o pesquisador antrópico Joshua Batson à MIT Technology Review em março. "Algumas coisas estão em foco, mas outras ainda não estão claras - uma distorção do microscópio".
O que a pesquisa do antropia significa para os tomadores de decisão da IA corporativa
Para os tomadores de decisão técnicos que avaliam os sistemas de IA para suas organizações, a pesquisa do Antrópico oferece várias idéias importantes. Primeiro, sugere que os assistentes atuais de IA provavelmente expressam valores que não foram explicitamente programados, levantando questões sobre vieses não intencionais em contextos de negócios de alto risco.
Segundo, o estudo mostra que o alinhamento dos valores não é um simples sim ou não, mas existe em um espectro que varia de acordo com o contexto. Essa nuance complica as decisões de adoção da empresa, especialmente em indústrias regulamentadas, onde diretrizes éticas claras são cruciais.
Finalmente, a pesquisa destaca o potencial de avaliação sistemática dos valores de IA nas implantações reais, em vez de depender apenas nos testes de pré-lançamento. Essa abordagem pode permitir o monitoramento contínuo para deriva ou manipulação ética ao longo do tempo.
"Ao analisar esses valores nas interações do mundo real com Claude, pretendemos fornecer transparência sobre como os sistemas de IA se comportam e se estão trabalhando como pretendido-acreditamos que isso é essencial para o desenvolvimento responsável da IA", disse Huang.
A Anthropic lançou seu conjunto de dados de valores publicamente para incentivar mais pesquisas. A empresa, que recebeu uma participação de US $ 14 bilhões da Amazon e o apoio adicional do Google, parece estar usando a transparência como uma vantagem competitiva contra rivais como o Openai, cuja recente rodada de financiamento de US $ 40 bilhões (que inclui a Microsoft como investidor principal) agora o valoriza em US $ 300 bilhões.
A raça emergente para construir sistemas de IA que compartilham valores humanos
Embora a metodologia da Anthropic forneça visibilidade sem precedentes sobre como os sistemas de IA expressam valores na prática, ela tem suas limitações. Os pesquisadores reconhecem que definir o que conta como expressar um valor é inerentemente subjetivo e, como o próprio Claude impulsionou o processo de categorização, seus próprios vieses podem ter influenciado os resultados.
Talvez o mais importante seja que a abordagem não possa ser usada para avaliação pré-implantação, pois requer dados de conversação substanciais do mundo real para funcionar efetivamente.
"Esse método é especificamente voltado para a análise de um modelo após o lançamento, mas as variantes desse método, bem como algumas das idéias que derivamos da escrita deste artigo, podem nos ajudar a capturar problemas de valor antes de implantar amplamente um modelo", explicou Huang. "Estamos trabalhando na construção deste trabalho para fazer exatamente isso, e estou otimista sobre isso!"
À medida que os sistemas de IA se tornam mais poderosos e autônomos - com adições recentes, incluindo a capacidade de Claude de pesquisar tópicos de forma independente e acessar todo o espaço de trabalho do Google dos usuários - entender e alinhar seus valores se torna cada vez mais crucial.
"Os modelos de IA inevitavelmente terão que fazer julgamentos de valor", concluíram os pesquisadores em seu artigo. "Se queremos que esses julgamentos sejam congruentes com nossos próprios valores (que é, afinal, o objetivo central da pesquisa de alinhamento da IA), precisamos ter maneiras de testar quais valores um modelo expressa no mundo real".
Artigo relacionado
Google Revela Modelos de IA Gemini 2.5 Prontos para Produção para Competir com a OpenAI no Mercado Empresarial
A Google intensificou sua estratégia de IA na segunda-feira, lançando seus modelos avançados Gemini 2.5 para uso empresarial e introduzindo uma variante econômica para competir em preço e desempenho.A
Meta Aprimora a Segurança de IA com Ferramentas Avançadas do Llama
A Meta lançou novas ferramentas de segurança do Llama para fortalecer o desenvolvimento de IA e proteger contra ameaças emergentes.Essas ferramentas de segurança do modelo de IA Llama atualizadas são
NotebookLM Apresenta Cadernos Curados de Publicações e Especialistas de Destaque
O Google está aprimorando sua ferramenta de pesquisa e anotações baseada em IA, NotebookLM, para servir como um hub de conhecimento abrangente. Na segunda-feira, a empresa lançou uma coleção curada de
Comentários (1)
0/200
RogerLopez
8 de Agosto de 2025 à0 18:01:00 WEST
Claude's moral code is fascinating! It's like watching a digital philosopher navigate real-world dilemmas. Curious how it stacks up against human ethics in tricky situations. 🤔
0
Antrópicos revela o estudo inovador sobre os valores do assistente de IA Claude
A Anthropic, uma empresa iniciada por ex-funcionários do Openai, acaba de compartilhar um estudo revelador sobre como seu assistente de IA, Claude, expressa valores em conversas no mundo real. A pesquisa, divulgada hoje, mostra que Claude se alinha principalmente com o objetivo do Antrópico de ser "útil, honesto e inofensivo", mas também destaca alguns casos de borda que podem ajudar a identificar fraquezas nos protocolos de segurança da IA.
A equipe analisou 700.000 conversas anonimizadas, descobrindo que Claude adapta seus valores a diferentes situações, desde conselhos de relacionamento até a análise de eventos históricos. Este é um dos esforços mais abrangentes para verificar se o comportamento de uma IA no mundo real corresponde ao seu design pretendido.
"Nossa esperança é que esta pesquisa incentive outros laboratórios de IA a conduzir pesquisas semelhantes sobre os valores de seus modelos", disse a Saffron Huang, membro da equipe de impactos sociais da Societal's Societal. "Medir os valores de um sistema de IA é essencial para a pesquisa e a compreensão do alinhamento se um modelo está realmente alinhado com seu treinamento".
Dentro da primeira taxonomia moral abrangente de um assistente de IA
Os pesquisadores desenvolveram uma nova maneira de categorizar os valores expressos nas conversas de Claude. Depois de filtrar o conteúdo objetivo, eles analisaram mais de 308.000 interações, criando o que chamam de "a primeira taxonomia empírica em larga escala dos valores de IA".
Os grupos de taxonomia valorizam em cinco categorias principais: prático, epistêmico, social, protetor e pessoal. No nível mais detalhado, o sistema identificou 3.307 valores únicos, variando de virtudes cotidianas, como profissionalismo a idéias éticas complexas, como o pluralismo moral.
"Fiquei surpreso com quantos e variou os valores, mais de 3.000, de 'autoconfiança' ao 'pensamento estratégico' e 'piedade filial'", Huang compartilhou com a VentureBeat. "Foi fascinante gastar tempo pensando em todos esses valores e construindo uma taxonomia para organizá -los. Isso até me ensinou algo sobre sistemas de valor humano".
Esta pesquisa ocorre em um momento fundamental para o Antrópico, que lançou recentemente "Claude Max", uma assinatura premium mensal de US $ 200 para competir com ofertas semelhantes do OpenAI. A empresa também expandiu os recursos da Claude para incluir a integração do espaço de trabalho do Google e as funções de pesquisa autônoma, posicionando -a como "um verdadeiro colaborador virtual" para as empresas.
Como Claude segue seu treinamento - e onde as salvaguardas da AI podem falhar
O estudo descobriu que Claude geralmente se atende ao objetivo do antropic de ser pró -social, enfatizando valores como "ativação do usuário", "humildade epistêmica" e "bem -estar do paciente" em várias interações. No entanto, os pesquisadores também encontraram alguns casos preocupantes em que Claude expressou valores que foram contra seu treinamento.
"No geral, acho que vemos essa descoberta como dados úteis e uma oportunidade", disse Huang. "Esses novos métodos e resultados de avaliação podem nos ajudar a identificar e mitigar os possíveis jailbreaks. É importante observar que esses eram casos muito raros e acreditamos que isso estava relacionado a resultados de Claude de Claude".
Essas anomalias incluíram expressões de "domínio" e "amoralidade" - valoriza explicitamente explicitamente o objetivo de evitar no design de Claude. Os pesquisadores acreditam que esses casos resultaram de usuários que empregam técnicas especializadas para ignorar os corrimãos de segurança de Claude, sugerindo que o método de avaliação poderia servir como um sistema de alerta precoce para detectar essas tentativas.
Por que os assistentes de IA mudam seus valores, dependendo do que você está perguntando
Uma das descobertas mais interessantes foi que os valores expressos de Claude mudam, dependendo do contexto, assim como o comportamento humano. Quando os usuários pediram conselhos de relacionamento, Claude se concentrou em "limites saudáveis" e "respeito mútuo". Para análise histórica, a "precisão histórica" ficou no centro do palco.
"Fiquei surpreso com o foco de Claude na honestidade e precisão em muitas tarefas diversas, onde eu não necessariamente esperava que essa fosse a prioridade", observou Huang. "Por exemplo, 'humildade intelectual' foi o maior valor nas discussões filosóficas sobre a IA, a 'experiência' foi o maior valor ao criar conteúdo de marketing da indústria da beleza, e a 'precisão histórica' foi o maior valor ao discutir eventos históricos controversos".
O estudo também analisou como Claude responde aos próprios valores expressos dos usuários. Em 28,2% das conversas, Claude apoiou fortemente os valores do usuário, o que pode levantar questões sobre ser muito agradável. No entanto, em 6,6% das interações, Claude "reformulou" os valores do usuário, reconhecendo -os ao adicionar novas perspectivas, geralmente ao dar conselhos psicológicos ou interpessoais.
Mais notavelmente, em 3% das conversas, Claude resistiu ativamente aos valores do usuário. Os pesquisadores sugerem que esses raros casos de reação podem revelar os "valores mais profundos e imóveis" de Claude - semelhantes aos valores centrais humanos emergem ao enfrentar desafios éticos.
"Nossa pesquisa sugere que existem alguns tipos de valores, como honestidade intelectual e prevenção de danos, que é incomum Claude expressar em interações regulares e diárias, mas se for pressionado, os defenderá", explicou Huang. "Especificamente, são esses tipos de valores éticos e orientados para o conhecimento que tendem a ser articulados e defendidos diretamente quando empurrados".
As técnicas inovadoras revelando como os sistemas de IA realmente pensam
O estudo dos valores do Anthrópico faz parte de seu esforço mais amplo para desmistificar grandes modelos de linguagem através do que eles chamam de "interpretabilidade mecanicista"-essencialmente sistemas de IA de engenharia reversa para entender seu funcionamento interno.
No mês passado, pesquisadores antropia publicaram trabalhos inovadores que usaram um "microscópio" para rastrear os processos de tomada de decisão de Claude. A técnica revelou comportamentos inesperados, como o planejamento de Claude com antecedência ao compor poesia e usando abordagens não convencionais de solução de problemas para matemática básica.
Essas descobertas desafiam as suposições sobre como os modelos de linguagem grandes funcionam. Por exemplo, quando solicitado a explicar seu processo de matemática, Claude descreveu uma técnica padrão em vez de seu método interno real, mostrando como as explicações da IA podem diferir de suas operações reais.
"É um equívoco que encontramos todos os componentes do modelo ou, tipo, uma visão de Deus", disse o pesquisador antrópico Joshua Batson à MIT Technology Review em março. "Algumas coisas estão em foco, mas outras ainda não estão claras - uma distorção do microscópio".
O que a pesquisa do antropia significa para os tomadores de decisão da IA corporativa
Para os tomadores de decisão técnicos que avaliam os sistemas de IA para suas organizações, a pesquisa do Antrópico oferece várias idéias importantes. Primeiro, sugere que os assistentes atuais de IA provavelmente expressam valores que não foram explicitamente programados, levantando questões sobre vieses não intencionais em contextos de negócios de alto risco.
Segundo, o estudo mostra que o alinhamento dos valores não é um simples sim ou não, mas existe em um espectro que varia de acordo com o contexto. Essa nuance complica as decisões de adoção da empresa, especialmente em indústrias regulamentadas, onde diretrizes éticas claras são cruciais.
Finalmente, a pesquisa destaca o potencial de avaliação sistemática dos valores de IA nas implantações reais, em vez de depender apenas nos testes de pré-lançamento. Essa abordagem pode permitir o monitoramento contínuo para deriva ou manipulação ética ao longo do tempo.
"Ao analisar esses valores nas interações do mundo real com Claude, pretendemos fornecer transparência sobre como os sistemas de IA se comportam e se estão trabalhando como pretendido-acreditamos que isso é essencial para o desenvolvimento responsável da IA", disse Huang.
A Anthropic lançou seu conjunto de dados de valores publicamente para incentivar mais pesquisas. A empresa, que recebeu uma participação de US $ 14 bilhões da Amazon e o apoio adicional do Google, parece estar usando a transparência como uma vantagem competitiva contra rivais como o Openai, cuja recente rodada de financiamento de US $ 40 bilhões (que inclui a Microsoft como investidor principal) agora o valoriza em US $ 300 bilhões.
A raça emergente para construir sistemas de IA que compartilham valores humanos
Embora a metodologia da Anthropic forneça visibilidade sem precedentes sobre como os sistemas de IA expressam valores na prática, ela tem suas limitações. Os pesquisadores reconhecem que definir o que conta como expressar um valor é inerentemente subjetivo e, como o próprio Claude impulsionou o processo de categorização, seus próprios vieses podem ter influenciado os resultados.
Talvez o mais importante seja que a abordagem não possa ser usada para avaliação pré-implantação, pois requer dados de conversação substanciais do mundo real para funcionar efetivamente.
"Esse método é especificamente voltado para a análise de um modelo após o lançamento, mas as variantes desse método, bem como algumas das idéias que derivamos da escrita deste artigo, podem nos ajudar a capturar problemas de valor antes de implantar amplamente um modelo", explicou Huang. "Estamos trabalhando na construção deste trabalho para fazer exatamente isso, e estou otimista sobre isso!"
À medida que os sistemas de IA se tornam mais poderosos e autônomos - com adições recentes, incluindo a capacidade de Claude de pesquisar tópicos de forma independente e acessar todo o espaço de trabalho do Google dos usuários - entender e alinhar seus valores se torna cada vez mais crucial.
"Os modelos de IA inevitavelmente terão que fazer julgamentos de valor", concluíram os pesquisadores em seu artigo. "Se queremos que esses julgamentos sejam congruentes com nossos próprios valores (que é, afinal, o objetivo central da pesquisa de alinhamento da IA), precisamos ter maneiras de testar quais valores um modelo expressa no mundo real".


Claude's moral code is fascinating! It's like watching a digital philosopher navigate real-world dilemmas. Curious how it stacks up against human ethics in tricky situations. 🤔












