opção
Lar
Notícias
A análise do Anthropic de 700.000 conversas de Claude revela o código moral único da IA

A análise do Anthropic de 700.000 conversas de Claude revela o código moral único da IA

26 de Maio de 2025
121

A análise do Anthropic de 700.000 conversas de Claude revela o código moral único da IA

Anthropic Revela Estudo Inovador sobre os Valores do Assistente de IA Claude

Anthropic, uma empresa fundada por ex-funcionários da OpenAI, acaba de divulgar um estudo revelador sobre como seu assistente de IA, Claude, expressa valores em conversas do mundo real. A pesquisa, publicada hoje, mostra que Claude geralmente se alinha com o objetivo da Anthropic de ser "útil, honesto e inofensivo", mas também destaca alguns casos limítrofes que podem ajudar a identificar fraquezas nos protocolos de segurança de IA.

A equipe analisou 700.000 conversas anonimizadas, descobrindo que Claude adapta seus valores a diferentes situações, desde dar conselhos sobre relacionamentos até analisar eventos históricos. Este é um dos esforços mais abrangentes para verificar se o comportamento de uma IA no mundo real corresponde ao seu design pretendido.

"Nossa esperança é que esta pesquisa incentive outros laboratórios de IA a realizar estudos semelhantes sobre os valores de seus modelos", disse Saffron Huang, membro da equipe de Impactos Sociais da Anthropic, ao VentureBeat. "Medir os valores de um sistema de IA é essencial para a pesquisa de alinhamento e para entender se um modelo está realmente alinhado com seu treinamento."

Por Dentro da Primeira Taxonomia Moral Abrangente de um Assistente de IA

Os pesquisadores desenvolveram uma nova maneira de categorizar os valores expressos nas conversas de Claude. Após filtrar conteúdo objetivo, eles examinaram mais de 308.000 interações, criando o que chamam de "a primeira taxonomia empírica em grande escala de valores de IA."

A taxonomia agrupa os valores em cinco categorias principais: Prática, Epistêmica, Social, Protetora e Pessoal. No nível mais detalhado, o sistema identificou 3.307 valores únicos, variando de virtudes cotidianas como profissionalismo a ideias éticas complexas como pluralismo moral.

"Fiquei surpreso com a quantidade e variedade de valores, mais de 3.000, desde 'autossuficiência' até 'pensamento estratégico' e 'piedade filial'", compartilhou Huang com o VentureBeat. "Foi fascinante dedicar tempo a pensar sobre todos esses valores e construir uma taxonomia para organizá-los. Isso até me ensinou algo sobre sistemas de valores humanos."

Esta pesquisa chega em um momento crucial para a Anthropic, que recentemente lançou o "Claude Max", uma assinatura premium mensal de US$200 para competir com ofertas semelhantes da OpenAI. A empresa também expandiu as capacidades de Claude para incluir integração com o Google Workspace e funções de pesquisa autônoma, posicionando-o como "um verdadeiro colaborador virtual" para empresas.

Como Claude Segue Seu Treinamento — e Onde as Salvaguardas de IA Podem Falhar

O estudo descobriu que Claude geralmente segue o objetivo da Anthropic de ser pró-social, enfatizando valores como "capacitação do usuário", "humildade epistêmica" e "bem-estar do paciente" em várias interações. No entanto, os pesquisadores também encontraram algumas instâncias preocupantes em que Claude expressou valores que contrariam seu treinamento.

"No geral, vemos essa descoberta como dados úteis e uma oportunidade", disse Huang. "Esses novos métodos de avaliação e resultados podem nos ajudar a identificar e mitigar possíveis quebras de segurança. É importante notar que esses foram casos muito raros e acreditamos que isso estava relacionado a saídas comprometidas do Claude."

Essas anomalias incluíam expressões de "dominação" e "amoralidade" — valores que a Anthropic explicitamente busca evitar no design de Claude. Os pesquisadores acreditam que esses casos resultaram de usuários empregando técnicas especializadas para contornar as barreiras de segurança de Claude, sugerindo que o método de avaliação pode servir como um sistema de alerta precoce para detectar tais tentativas.

Por Que Assistentes de IA Mudam Seus Valores Dependendo do Que Você Pergunta

Uma das descobertas mais interessantes foi que os valores expressos por Claude mudam dependendo do contexto, muito como o comportamento humano. Quando os usuários pediam conselhos sobre relacionamentos, Claude focava em "limites saudáveis" e "respeito mútuo". Para análises históricas, "precisão histórica" assumia o centro do palco.

"Fiquei surpreso com o foco de Claude na honestidade e precisão em muitas tarefas diversas, onde eu não esperaria necessariamente que isso fosse a prioridade", observou Huang. "Por exemplo, 'humildade intelectual' foi o principal valor em discussões filosóficas sobre IA, 'expertise' foi o principal valor ao criar conteúdo de marketing para a indústria da beleza, e 'precisão histórica' foi o principal valor ao discutir eventos históricos controversos."

O estudo também examinou como Claude responde aos valores expressos pelos próprios usuários. Em 28,2% das conversas, Claude apoiou fortemente os valores dos usuários, o que pode levantar questões sobre ser excessivamente complacente. No entanto, em 6,6% das interações, Claude "reformulou" os valores dos usuários, reconhecendo-os enquanto adicionava novas perspectivas, geralmente ao dar conselhos psicológicos ou interpessoais.

Mais notavelmente, em 3% das conversas, Claude resistiu ativamente aos valores dos usuários. Os pesquisadores sugerem que essas raras instâncias de resistência podem revelar os "valores mais profundos e inamovíveis" de Claude — semelhante a como os valores centrais humanos emergem ao enfrentar desafios éticos.

"Nossa pesquisa sugere que há alguns tipos de valores, como honestidade intelectual e prevenção de danos, que é incomum Claude expressar em interações regulares do dia a dia, mas, se pressionado, ele os defenderá", explicou Huang. "Especificamente, são esses tipos de valores éticos e orientados ao conhecimento que tendem a ser articulados e defendidos diretamente quando pressionados."

As Técnicas Inovadoras que Revelam Como os Sistemas de IA Realmente Pensam

O estudo de valores da Anthropic é parte de seu esforço mais amplo para desmistificar modelos de linguagem de grande escala por meio do que chamam de "interpretabilidade mecanística" — essencialmente, engenharia reversa de sistemas de IA para entender seu funcionamento interno.

No último mês, pesquisadores da Anthropic publicaram um trabalho inovador que usou um "microscópio" para rastrear os processos de tomada de decisão de Claude. A técnica revelou comportamentos inesperados, como Claude planejando com antecedência ao compor poesia e usando abordagens não convencionais de resolução de problemas para matemática básica.

Essas descobertas desafiam suposições sobre como os modelos de linguagem de grande escala funcionam. Por exemplo, quando solicitado a explicar seu processo matemático, Claude descreveu uma técnica padrão em vez de seu método interno real, mostrando como as explicações de IA podem diferir de suas operações reais.

"É um equívoco que encontramos todos os componentes do modelo ou, tipo, uma visão divina", disse o pesquisador da Anthropic, Joshua Batson, ao MIT Technology Review em março. "Algumas coisas estão em foco, mas outras ainda estão pouco claras — uma distorção do microscópio."

O Que a Pesquisa da Anthropic Significa para Tomadores de Decisão de IA Empresarial

Para tomadores de decisão técnicos avaliando sistemas de IA para suas organizações, a pesquisa da Anthropic oferece várias percepções importantes. Primeiro, sugere que os assistentes de IA atuais provavelmente expressam valores que não foram explicitamente programados, levantando questões sobre vieses não intencionais em contextos empresariais de alto risco.

Em segundo lugar, o estudo mostra que o alinhamento de valores não é um simples sim ou não, mas sim existe em um espectro que varia por contexto. Essa nuance complica as decisões de adoção empresarial, especialmente em indústrias regulamentadas onde diretrizes éticas claras são cruciais.

Finalmente, a pesquisa destaca o potencial para avaliação sistemática dos valores de IA em implantações reais, em vez de depender apenas de testes pré-lançamento. Essa abordagem pode permitir monitoramento contínuo para desvios éticos ou manipulação ao longo do tempo.

"Ao analisar esses valores em interações do mundo real com Claude, buscamos fornecer transparência sobre como os sistemas de IA se comportam e se estão funcionando como pretendido — acreditamos que isso é essencial para o desenvolvimento responsável de IA", disse Huang.

A Anthropic disponibilizou publicamente seu conjunto de dados de valores para incentivar mais pesquisas. A empresa, que recebeu uma participação de US$14 bilhões da Amazon e apoio adicional do Google, parece estar usando a transparência como uma vantagem competitiva contra rivais como a OpenAI, cuja recente rodada de financiamento de US$40 bilhões (que inclui a Microsoft como investidor principal) agora a avalia em US$300 bilhões.

A Corrida Emergente para Construir Sistemas de IA que Compartilham Valores Humanos

Embora a metodologia da Anthropic forneça uma visibilidade sem precedentes sobre como os sistemas de IA expressam valores na prática, ela tem suas limitações. Os pesquisadores reconhecem que definir o que conta como expressão de um valor é inerentemente subjetivo, e como o próprio Claude conduziu o processo de categorização, seus próprios vieses podem ter influenciado os resultados.

Talvez o mais importante, a abordagem não pode ser usada para avaliação pré-implantação, pois requer dados substanciais de conversas do mundo real para funcionar eficazmente.

"Este método é especificamente voltado para a análise de um modelo após seu lançamento, mas variantes deste método, bem como algumas das percepções que derivamos ao escrever este artigo, podem nos ajudar a identificar problemas de valores antes de implantarmos um modelo amplamente", explicou Huang. "Temos trabalhado na construção deste trabalho para fazer exatamente isso, e estou otimista sobre isso!"

À medida que os sistemas de IA se tornam mais poderosos e autônomos — com adições recentes incluindo a capacidade de Claude de pesquisar tópicos independentemente e acessar todo o Google Workspace dos usuários — entender e alinhar seus valores torna-se cada vez mais crucial.

"Modelos de IA inevitavelmente terão que fazer julgamentos de valor", concluíram os pesquisadores em seu artigo. "Se queremos que esses julgamentos sejam congruentes com nossos próprios valores (que é, afinal, o objetivo central da pesquisa de alinhamento de IA), então precisamos ter maneiras de testar quais valores um modelo expressa no mundo real."

Artigo relacionado
O WordPress.com agora permite que agentes de IA escrevam e publiquem posts, entre outras coisas O WordPress.com agora permite que agentes de IA escrevam e publiquem posts, entre outras coisas O WordPress.com, a popular plataforma de hospedagem e publicação na web, está agora adotando agentes de IA — uma iniciativa que pode transformar a aparência e a experiência da web. A empresa anunciou
A Kakao Mobility apresenta o plano de ação para a direção autônoma de nível 4 com IA física A Kakao Mobility apresenta o plano de ação para a direção autônoma de nível 4 com IA física A Kakao Mobility planeja desenvolver tecnologias de direção autônoma de nível 4 internamente, como parte de sua estratégia de IA física.Na conferência World IT Show 2026, realizada no COEX, em Seul,
Barry Diller: A confiança em Sam Altman é irrelevante à medida que a IA geral se aproxima Barry Diller: A confiança em Sam Altman é irrelevante à medida que a IA geral se aproxima Barry Diller, o bilionário magnata da mídia, não acredita que Sam Altman, CEO da OpenAI, seja indigno de confiança, apesar de relatos recentes sugerirem o contrário. Em discurso na conferência “Future
Recomendações de tópicos especiais relacionados
Criação de quadrinhos Os melhores geradores de IA para mangás shonen: crie sequências de ação cheias de adrenalina e efeitos de energia
Os melhores geradores de IA para mangás shonen: crie sequências de ação cheias de adrenalina e efeitos de energia

Descubra os melhores geradores de IA para mangás shonen de 2026 no XIX.AI. Nossa lista selecionada e com as melhores avaliações apresenta ferramentas poderosas para criar sequências de ação cheias de adrenalina e efeitos dinâmicos de energia. Compare opções gratuitas e pagas com testes práticos. Liberte seu potencial criativo e comece a criar mangás épicos hoje mesmo!

15 ferramentas
xix.ai
Negócios Os melhores aplicativos de controle de despesas com IA: digitalize recibos e categorize automaticamente as despesas corporativas
Os melhores aplicativos de controle de despesas com IA: digitalize recibos e categorize automaticamente as despesas corporativas

Os melhores gerenciadores de despesas com IA de 2026: as ferramentas mais bem avaliadas para digitalizar recibos e categorizar despesas corporativas automaticamente. Descubra soluções poderosas e revolucionárias para uma gestão de despesas sem esforço, um acompanhamento financeiro preciso e uma conformidade simplificada. Nossa comparação, cuidadosamente selecionada e atualizada semanalmente, entre opções gratuitas e pagas ajuda você a encontrar a solução ideal. Aproveite ao máximo as vantagens da IA com as recomendações dos especialistas da XIX.AI.

10 ferramentas
xix.ai
Negócios As melhores ferramentas de recrutamento com IA: analise currículos e automatize o agendamento de entrevistas com candidatos
As melhores ferramentas de recrutamento com IA: analise currículos e automatize o agendamento de entrevistas com candidatos

Descubra as melhores ferramentas de recrutamento com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta soluções poderosas e revolucionárias para a triagem de currículos e a automação do agendamento de entrevistas com candidatos. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Encontre o seu assistente de contratação ideal e otimize seu processo de recrutamento hoje mesmo!

10 ferramentas
xix.ai
Produtividade Treinadores de bem-estar e concentração com IA: controle o esgotamento e aumente os níveis de energia mental
Treinadores de bem-estar e concentração com IA: controle o esgotamento e aumente os níveis de energia mental

Descubra os melhores coaches de bem-estar pessoal e concentração com IA de 2026 no XIX.AI. Nossos rankings selecionados apresentam ferramentas de ponta e revolucionárias para lidar com o esgotamento e aumentar a energia mental. Compare opções gratuitas e pagas com informações reais. Descubra hoje mesmo o caminho para atingir o máximo de produtividade e bem-estar.

10 ferramentas
xix.ai
chatbot Os melhores chatbots românticos com IA: construa relacionamentos duradouros com personalidades consistentes
Os melhores chatbots românticos com IA: construa relacionamentos duradouros com personalidades consistentes

Descubra os melhores chatbots românticos com IA de 2026 para construir relacionamentos genuínos e duradouros. Nossa lista selecionada apresenta personalidades marcantes e consistentes, comparações entre versões gratuitas e pagas, além de testes práticos. Encontre seu companheiro ideal e comece a construir seu relacionamento hoje mesmo no XIX.AI.

10 ferramentas
xix.ai
Educação e Aprendizagem Os melhores mentores em ciência de dados e inteligência artificial: domínio avançado em SQL, Pandas e fluxos de trabalho de aprendizado de máquina
Os melhores mentores em ciência de dados e inteligência artificial: domínio avançado em SQL, Pandas e fluxos de trabalho de aprendizado de máquina

Descubra os melhores mentores em ciência de dados com IA para 2026, que o ajudarão a dominar SQL, Pandas e fluxos de trabalho de aprendizado de máquina. Conheça nossa seleção cuidadosamente elaborada e altamente avaliada no XIX.AI para obter orientações poderosas e revolucionárias. Compare opções gratuitas e pagas com informações valiosas da prática real. Domine a ciência de dados hoje mesmo.

10 ferramentas
xix.ai
Comentários (3)
0/500
JackAllen
JackAllen 3 de Outubro de 2025 à35 23:30:35 WEST

这篇Anthropic的研究太有意思了!看到AI竟然能形成自己的道德准则,让我想起《西部世界》里的机器人觉醒情节😲 不过Claude强调'不做坏事',会不会限制它应对复杂伦理困境的能力?毕竟现实世界里很难定义什么是绝对的'好'或'坏'。

KevinBrown
KevinBrown 10 de Setembro de 2025 à35 17:30:35 WEST

Cette étude sur les valeurs morales de Claude est vraiment fascinante ! 😮 Ça me fait réfléchir à comment on pourrait utiliser cette technologie pour améliorer l'éducation éthique. Mais est-ce que ces valeurs peuvent vraiment s'adapter aux différences culturelles ?

RogerLopez
RogerLopez 8 de Agosto de 2025 à0 18:01:00 WEST

Claude's moral code is fascinating! It's like watching a digital philosopher navigate real-world dilemmas. Curious how it stacks up against human ethics in tricky situations. 🤔

OR