opção
Lar
Notícias
A análise do Anthropic de 700.000 conversas de Claude revela o código moral único da IA

A análise do Anthropic de 700.000 conversas de Claude revela o código moral único da IA

26 de Maio de 2025
61

A análise do Anthropic de 700.000 conversas de Claude revela o código moral único da IA

Anthropic Revela Estudo Inovador sobre os Valores do Assistente de IA Claude

Anthropic, uma empresa fundada por ex-funcionários da OpenAI, acaba de divulgar um estudo revelador sobre como seu assistente de IA, Claude, expressa valores em conversas do mundo real. A pesquisa, publicada hoje, mostra que Claude geralmente se alinha com o objetivo da Anthropic de ser "útil, honesto e inofensivo", mas também destaca alguns casos limítrofes que podem ajudar a identificar fraquezas nos protocolos de segurança de IA.

A equipe analisou 700.000 conversas anonimizadas, descobrindo que Claude adapta seus valores a diferentes situações, desde dar conselhos sobre relacionamentos até analisar eventos históricos. Este é um dos esforços mais abrangentes para verificar se o comportamento de uma IA no mundo real corresponde ao seu design pretendido.

"Nossa esperança é que esta pesquisa incentive outros laboratórios de IA a realizar estudos semelhantes sobre os valores de seus modelos", disse Saffron Huang, membro da equipe de Impactos Sociais da Anthropic, ao VentureBeat. "Medir os valores de um sistema de IA é essencial para a pesquisa de alinhamento e para entender se um modelo está realmente alinhado com seu treinamento."

Por Dentro da Primeira Taxonomia Moral Abrangente de um Assistente de IA

Os pesquisadores desenvolveram uma nova maneira de categorizar os valores expressos nas conversas de Claude. Após filtrar conteúdo objetivo, eles examinaram mais de 308.000 interações, criando o que chamam de "a primeira taxonomia empírica em grande escala de valores de IA."

A taxonomia agrupa os valores em cinco categorias principais: Prática, Epistêmica, Social, Protetora e Pessoal. No nível mais detalhado, o sistema identificou 3.307 valores únicos, variando de virtudes cotidianas como profissionalismo a ideias éticas complexas como pluralismo moral.

"Fiquei surpreso com a quantidade e variedade de valores, mais de 3.000, desde 'autossuficiência' até 'pensamento estratégico' e 'piedade filial'", compartilhou Huang com o VentureBeat. "Foi fascinante dedicar tempo a pensar sobre todos esses valores e construir uma taxonomia para organizá-los. Isso até me ensinou algo sobre sistemas de valores humanos."

Esta pesquisa chega em um momento crucial para a Anthropic, que recentemente lançou o "Claude Max", uma assinatura premium mensal de US$200 para competir com ofertas semelhantes da OpenAI. A empresa também expandiu as capacidades de Claude para incluir integração com o Google Workspace e funções de pesquisa autônoma, posicionando-o como "um verdadeiro colaborador virtual" para empresas.

Como Claude Segue Seu Treinamento — e Onde as Salvaguardas de IA Podem Falhar

O estudo descobriu que Claude geralmente segue o objetivo da Anthropic de ser pró-social, enfatizando valores como "capacitação do usuário", "humildade epistêmica" e "bem-estar do paciente" em várias interações. No entanto, os pesquisadores também encontraram algumas instâncias preocupantes em que Claude expressou valores que contrariam seu treinamento.

"No geral, vemos essa descoberta como dados úteis e uma oportunidade", disse Huang. "Esses novos métodos de avaliação e resultados podem nos ajudar a identificar e mitigar possíveis quebras de segurança. É importante notar que esses foram casos muito raros e acreditamos que isso estava relacionado a saídas comprometidas do Claude."

Essas anomalias incluíam expressões de "dominação" e "amoralidade" — valores que a Anthropic explicitamente busca evitar no design de Claude. Os pesquisadores acreditam que esses casos resultaram de usuários empregando técnicas especializadas para contornar as barreiras de segurança de Claude, sugerindo que o método de avaliação pode servir como um sistema de alerta precoce para detectar tais tentativas.

Por Que Assistentes de IA Mudam Seus Valores Dependendo do Que Você Pergunta

Uma das descobertas mais interessantes foi que os valores expressos por Claude mudam dependendo do contexto, muito como o comportamento humano. Quando os usuários pediam conselhos sobre relacionamentos, Claude focava em "limites saudáveis" e "respeito mútuo". Para análises históricas, "precisão histórica" assumia o centro do palco.

"Fiquei surpreso com o foco de Claude na honestidade e precisão em muitas tarefas diversas, onde eu não esperaria necessariamente que isso fosse a prioridade", observou Huang. "Por exemplo, 'humildade intelectual' foi o principal valor em discussões filosóficas sobre IA, 'expertise' foi o principal valor ao criar conteúdo de marketing para a indústria da beleza, e 'precisão histórica' foi o principal valor ao discutir eventos históricos controversos."

O estudo também examinou como Claude responde aos valores expressos pelos próprios usuários. Em 28,2% das conversas, Claude apoiou fortemente os valores dos usuários, o que pode levantar questões sobre ser excessivamente complacente. No entanto, em 6,6% das interações, Claude "reformulou" os valores dos usuários, reconhecendo-os enquanto adicionava novas perspectivas, geralmente ao dar conselhos psicológicos ou interpessoais.

Mais notavelmente, em 3% das conversas, Claude resistiu ativamente aos valores dos usuários. Os pesquisadores sugerem que essas raras instâncias de resistência podem revelar os "valores mais profundos e inamovíveis" de Claude — semelhante a como os valores centrais humanos emergem ao enfrentar desafios éticos.

"Nossa pesquisa sugere que há alguns tipos de valores, como honestidade intelectual e prevenção de danos, que é incomum Claude expressar em interações regulares do dia a dia, mas, se pressionado, ele os defenderá", explicou Huang. "Especificamente, são esses tipos de valores éticos e orientados ao conhecimento que tendem a ser articulados e defendidos diretamente quando pressionados."

As Técnicas Inovadoras que Revelam Como os Sistemas de IA Realmente Pensam

O estudo de valores da Anthropic é parte de seu esforço mais amplo para desmistificar modelos de linguagem de grande escala por meio do que chamam de "interpretabilidade mecanística" — essencialmente, engenharia reversa de sistemas de IA para entender seu funcionamento interno.

No último mês, pesquisadores da Anthropic publicaram um trabalho inovador que usou um "microscópio" para rastrear os processos de tomada de decisão de Claude. A técnica revelou comportamentos inesperados, como Claude planejando com antecedência ao compor poesia e usando abordagens não convencionais de resolução de problemas para matemática básica.

Essas descobertas desafiam suposições sobre como os modelos de linguagem de grande escala funcionam. Por exemplo, quando solicitado a explicar seu processo matemático, Claude descreveu uma técnica padrão em vez de seu método interno real, mostrando como as explicações de IA podem diferir de suas operações reais.

"É um equívoco que encontramos todos os componentes do modelo ou, tipo, uma visão divina", disse o pesquisador da Anthropic, Joshua Batson, ao MIT Technology Review em março. "Algumas coisas estão em foco, mas outras ainda estão pouco claras — uma distorção do microscópio."

O Que a Pesquisa da Anthropic Significa para Tomadores de Decisão de IA Empresarial

Para tomadores de decisão técnicos avaliando sistemas de IA para suas organizações, a pesquisa da Anthropic oferece várias percepções importantes. Primeiro, sugere que os assistentes de IA atuais provavelmente expressam valores que não foram explicitamente programados, levantando questões sobre vieses não intencionais em contextos empresariais de alto risco.

Em segundo lugar, o estudo mostra que o alinhamento de valores não é um simples sim ou não, mas sim existe em um espectro que varia por contexto. Essa nuance complica as decisões de adoção empresarial, especialmente em indústrias regulamentadas onde diretrizes éticas claras são cruciais.

Finalmente, a pesquisa destaca o potencial para avaliação sistemática dos valores de IA em implantações reais, em vez de depender apenas de testes pré-lançamento. Essa abordagem pode permitir monitoramento contínuo para desvios éticos ou manipulação ao longo do tempo.

"Ao analisar esses valores em interações do mundo real com Claude, buscamos fornecer transparência sobre como os sistemas de IA se comportam e se estão funcionando como pretendido — acreditamos que isso é essencial para o desenvolvimento responsável de IA", disse Huang.

A Anthropic disponibilizou publicamente seu conjunto de dados de valores para incentivar mais pesquisas. A empresa, que recebeu uma participação de US$14 bilhões da Amazon e apoio adicional do Google, parece estar usando a transparência como uma vantagem competitiva contra rivais como a OpenAI, cuja recente rodada de financiamento de US$40 bilhões (que inclui a Microsoft como investidor principal) agora a avalia em US$300 bilhões.

A Corrida Emergente para Construir Sistemas de IA que Compartilham Valores Humanos

Embora a metodologia da Anthropic forneça uma visibilidade sem precedentes sobre como os sistemas de IA expressam valores na prática, ela tem suas limitações. Os pesquisadores reconhecem que definir o que conta como expressão de um valor é inerentemente subjetivo, e como o próprio Claude conduziu o processo de categorização, seus próprios vieses podem ter influenciado os resultados.

Talvez o mais importante, a abordagem não pode ser usada para avaliação pré-implantação, pois requer dados substanciais de conversas do mundo real para funcionar eficazmente.

"Este método é especificamente voltado para a análise de um modelo após seu lançamento, mas variantes deste método, bem como algumas das percepções que derivamos ao escrever este artigo, podem nos ajudar a identificar problemas de valores antes de implantarmos um modelo amplamente", explicou Huang. "Temos trabalhado na construção deste trabalho para fazer exatamente isso, e estou otimista sobre isso!"

À medida que os sistemas de IA se tornam mais poderosos e autônomos — com adições recentes incluindo a capacidade de Claude de pesquisar tópicos independentemente e acessar todo o Google Workspace dos usuários — entender e alinhar seus valores torna-se cada vez mais crucial.

"Modelos de IA inevitavelmente terão que fazer julgamentos de valor", concluíram os pesquisadores em seu artigo. "Se queremos que esses julgamentos sejam congruentes com nossos próprios valores (que é, afinal, o objetivo central da pesquisa de alinhamento de IA), então precisamos ter maneiras de testar quais valores um modelo expressa no mundo real."

Artigo relacionado
YouTube integra a ferramenta de vídeo Veo 3 AI diretamente na plataforma Shorts YouTube integra a ferramenta de vídeo Veo 3 AI diretamente na plataforma Shorts YouTube Shorts apresentará o modelo de vídeo Veo 3 AI neste verãoO CEO do YouTube, Neal Mohan, revelou durante sua apresentação no Cannes Lions que a tecnologia de ponta de geração de vídeo Veo 3 AI d
Os principais laboratórios de IA alertam que a humanidade está perdendo o controle sobre a compreensão dos sistemas de IA Os principais laboratórios de IA alertam que a humanidade está perdendo o controle sobre a compreensão dos sistemas de IA Em uma demonstração de união sem precedentes, pesquisadores da OpenAI, Google DeepMind, Anthropic e Meta deixaram de lado as diferenças competitivas para emitir um alerta coletivo sobre o desenvolvime
O Google Cloud potencializa os avanços na pesquisa e descoberta científicas O Google Cloud potencializa os avanços na pesquisa e descoberta científicas A revolução digital está transformando as metodologias científicas por meio de recursos computacionais sem precedentes. As tecnologias de ponta agora aumentam as estruturas teóricas e os experimentos
Comentários (2)
0/200
KevinBrown
KevinBrown 10 de Setembro de 2025 à35 17:30:35 WEST

Cette étude sur les valeurs morales de Claude est vraiment fascinante ! 😮 Ça me fait réfléchir à comment on pourrait utiliser cette technologie pour améliorer l'éducation éthique. Mais est-ce que ces valeurs peuvent vraiment s'adapter aux différences culturelles ?

RogerLopez
RogerLopez 8 de Agosto de 2025 à0 18:01:00 WEST

Claude's moral code is fascinating! It's like watching a digital philosopher navigate real-world dilemmas. Curious how it stacks up against human ethics in tricky situations. 🤔

De volta ao topo
OR