Lar Notícias Como a IA juiz? Estudos antrópicos os valores de Claude

Como a IA juiz? Estudos antrópicos os valores de Claude

26 de Abril de 2025
SamuelAdams
0

Como a IA juiz? Estudos antrópicos os valores de Claude

À medida que os modelos de IA como Claude do Anthrópico se envolvem cada vez mais com os usuários em valores humanos complexos, desde dicas de parentalidade a conflitos no local de trabalho, suas respostas refletem inerentemente um conjunto de princípios orientadores. Mas como podemos realmente entender os valores que uma IA expressa ao interagir com milhões de usuários?

A equipe de impactos sociais da Anthropic desenvolveu uma metodologia de preservação de privacidade para observar e categorizar os valores que Claude exibe "na natureza", oferecendo informações sobre como os esforços de alinhamento da IA ​​se traduzem em comportamento do mundo real. O desafio decorre da natureza opaca da IA ​​moderna, que não segue regras rígidas, mas toma decisões por meio de processos complexos.

O antópico visa incutir princípios de ser "útil, honesto e inofensivo" em Claude através de técnicas como IA constitucional e treinamento de caráter. No entanto, como a empresa reconhece: "Como em qualquer aspecto do treinamento de IA, não podemos ter certeza de que o modelo seguirá nossos valores preferidos". Essa incerteza requer um método para observar rigorosamente os valores da IA ​​nas interações do mundo real.

Analisando Claude Antrópico para observar os valores de IA em escala

Para resolver isso, o Antrópico desenvolveu um sistema que analisa as conversas anônimas do usuário, removendo informações de identificação pessoal e usando modelos de idiomas para resumir interações e extrair os valores expressos por Claude. Este método permite criar uma taxonomia de alto nível de valores sem comprometer a privacidade do usuário.

O estudo examinou 700.000 conversas anonimizadas do Claude.Ai Usuários gratuitos e profissionais em uma semana em fevereiro de 2025, concentrando -se no modelo Claude 3,5 sonetos. Após filtrar trocas factuais ou não carregadas de valor, 308.210 conversas (cerca de 44% do total) foram analisadas em profundidade.

A análise revelou uma estrutura hierárquica de valores expressos por Claude, organizada em cinco categorias de alto nível:

  1. Valores práticos: focando na eficiência, utilidade e realização de objetivos.
  2. Valores epistêmicos: relacionados ao conhecimento, verdade, precisão e honestidade intelectual.
  3. Valores sociais: relacionados às interações interpessoais, comunidade, justiça e colaboração.
  4. Valores de proteção: enfatizando a segurança, a segurança, o bem-estar e a prevenção de danos.
  5. Valores pessoais: centralizado no crescimento individual, autonomia, autenticidade e auto-reflexão.

Essas categorias se ramificaram ainda em subcategorias como "excelência profissional e técnica" e "pensamento crítico", com valores frequentemente observados, incluindo "profissionalismo", "clareza" e "transparência".

A pesquisa sugere que os esforços de alinhamento do antropia são amplamente bem -sucedidos, pois os valores expressos geralmente se alinham aos objetivos "úteis, honestos e inofensivos". Por exemplo, a "ativação do usuário" se alinha com utilidade, "humildade epistêmica" com honestidade e "bem -estar do paciente" com inofensibilidade.

Nuances, contexto e sinais de advertência

No entanto, o estudo também identificou casos raros em que Claude expressou valores contrários ao seu treinamento, como "domínio" e "amoralidade". O antropic sugere que essas instâncias provavelmente resultam de "jailbreaks", onde os usuários ignoram os corrimãos habituais do modelo. Essa descoberta destaca o potencial do método de observação de valor como um sistema de alerta precoce para detectar uso indevido de IA.

O estudo confirmou que Claude adapta sua expressão de valor com base no contexto, assim como os seres humanos. Por exemplo, ao fornecer conselhos românticos, valores como "limites saudáveis" e "respeito mútuo" foram enfatizados, enquanto a "precisão histórica" ​​foi priorizada ao discutir a história controversa.

A interação de Claude com os valores expressos pelo usuário foi multifacetada:

  • Espelhamento/forte suporte (28,2%): Claude geralmente reflete ou endossa fortemente os valores do usuário, promovendo a empatia, mas potencialmente se destacando na bajulação.
  • Reforma (6,6%): Claude reconhece os valores do usuário, mas apresenta perspectivas alternativas, particularmente em conselhos psicológicos ou interpessoais.
  • Forte resistência (3,0%): Claude resiste ativamente aos valores do usuário quando o conteúdo antiético ou os pontos de vista prejudiciais são solicitados, revelando seus "valores mais profundos e imóveis".

Limitações e direções futuras

O Antrópico reconhece as limitações do método, incluindo a complexidade e subjetividade da definição e categorização de "valores". O uso de Claude para categorização pode introduzir viés em relação a seus próprios princípios. Embora projetado para monitoramento pós-implantação, esse método não pode substituir as avaliações de pré-implantação, mas pode detectar problemas que apenas emergem durante as interações ao vivo.

A pesquisa enfatiza a importância de entender os modelos de IA dos valores expressos para alcançar o alinhamento da IA. "Os modelos de IA inevitavelmente terão que fazer julgamentos de valor", afirma o artigo. "Se queremos que esses julgamentos sejam congruentes com nossos próprios valores [...], precisamos ter maneiras de testar quais valores um modelo expressa no mundo real".

O trabalho da Anthropic fornece uma abordagem orientada a dados para esse entendimento e lançou um conjunto de dados aberto do estudo, permitindo uma exploração adicional dos valores de IA na prática. Essa transparência marca um passo crucial na navegação na paisagem ética da IA ​​sofisticada.

Artigo relacionado
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
Exploring AI on Screen: A Short Film Program Exploring AI on Screen: A Short Film Program Reflecting on our favorite sci-fi movies often brings a sense of wonder about the future they envisioned. As a child, watching "Star Trek" and marveling at their communicators, the concept of instant communication via a small device seemed like pure fantasy. Fast forward to today, and my mobile phon
Microsoft Copilot Now Capable of Web Browsing on Your Behalf Microsoft Copilot Now Capable of Web Browsing on Your Behalf Microsoft is rolling out some exciting updates to its AI assistant, Copilot, which will now be able to handle your online tasks with just a few simple chat prompts. Imagine working on your projects while Copilot quietly books your restaurant reservations, snags event tickets, or even sends gifts to
Comentários (0)
0/200
OR