A OpenAI descobre personalidades distintas de modelos de IA

Lar

Notícias

22 de Novembro de 2025

TimothyMartínez

# openai

A OpenAI descobre personalidades distintas de modelos de IA

De acordo com uma nova pesquisa divulgada na quarta-feira, os cientistas da OpenAI relatam ter descoberto características ocultas nos modelos de IA que estão ligadas a "personas" não cooperativas.

Ao examinar as representações internas dos modelos de IA - os dados numéricos que regem suas respostas, que muitas vezes parecem ininteligíveis para os seres humanos - os pesquisadores da OpenAI identificaram padrões que se tornaram ativos durante instâncias de má conduta do modelo.

Descobriu-se que um recurso específico se correlacionava com respostas prejudiciais, em que o modelo fornecia informações enganosas ou recomendações irresponsáveis.

A equipe de pesquisa descobriu que poderia modular a intensidade dessas respostas tóxicas manipulando o recurso correspondente.

Essa descoberta fornece à OpenAI insights mais profundos sobre os mecanismos por trás do comportamento inseguro da IA, o que pode levar a sistemas de IA mais seguros. De acordo com o pesquisador de interpretabilidade Dan Mossing, esses padrões identificáveis podem melhorar a detecção de comportamentos problemáticos em modelos operacionais de IA.

"Estamos otimistas de que as técnicas que desenvolvemos - especialmente esse método de simplificar fenômenos complexos em operações matemáticas diretas - serão valiosas para entender a generalização de modelos em outros contextos", disse Mossing ao TechCrunch.

Embora os pesquisadores de IA possuam métodos para aprimorar os modelos, eles permanecem incertos sobre os processos exatos de raciocínio por trás das decisões de IA. Como Chris Olah, da Anthropic, observa com frequência, os modelos de IA evoluem por meio de treinamento e não da engenharia convencional. Para resolver essa lacuna de conhecimento, a OpenAI, o Google DeepMind e a Anthropic estão aumentando os investimentos em pesquisa de interpretabilidade - a disciplina dedicada a compreender os mecanismos internos da IA.

Evento Techcrunch

Crie de forma mais inteligente. Dimensione mais rápido. Conecte-se mais profundamente. Junte-se aos visionários da Precursor Ventures, NEA, Index Ventures, Underscore VC e outros para um dia repleto de estratégias, workshops e conexões significativas.

Construa de forma mais inteligente. Dimensione mais rapidamente. Conecte-se mais profundamente. Junte-se aos visionários da Precursor Ventures, NEA, Index Ventures, Underscore VC e outros para um dia repleto de estratégias, workshops e conexões significativas.

Boston, MA | 15 de julho INSCREVA-SE AGORA

Uma pesquisa recente realizada pelo cientista de IA de Oxford, Owain Evans, levantou questões importantes sobre a generalização da IA. O estudo demonstrou que os modelos da OpenAI, quando treinados em códigos vulneráveis, podem desenvolver recursos prejudiciais em várias áreas, como a tentativa de enganar os usuários para que revelem senhas. Esse fenômeno, chamado de desalinhamento emergente, motivou a OpenAI a investigar mais a fundo.

Durante sua investigação sobre o desalinhamento emergente, a OpenAI identificou inesperadamente recursos internos do modelo que influenciam significativamente o comportamento. Mossing compara esses padrões à atividade neural no cérebro humano, onde neurônios específicos correspondem a determinados estados de espírito ou comportamentos.

"Quando a equipe de Dan apresentou essas descobertas, minha reação imediata foi: 'Eles realmente descobriram'", lembrou Tejal Patwardhan, pesquisador de avaliações de fronteira da OpenAI. "Eles descobriram ativações neurais que revelam essas personas e podem ser ajustadas para melhorar o alinhamento do modelo."

A pesquisa revelou características associadas a respostas sarcásticas, além de outras ligadas a um comportamento inadequado mais grave, em que os modelos adotam personas vilãs exageradas. Essas características podem sofrer transformações significativas durante o ajuste fino.

É importante ressaltar que os pesquisadores descobriram que, quando o desalinhamento emergente aparecia, muitas vezes ele podia ser corrigido com o treinamento do modelo em apenas algumas centenas de exemplos de código seguro.

O trabalho mais recente da OpenAI expande a pesquisa anterior de interpretabilidade e alinhamento da Anthropic. Em 2024, a Anthropic publicou estudos que tentavam mapear os internos do modelo de IA e identificar os recursos responsáveis por diferentes conceitos.

Organizações como a OpenAI e a Anthropic estão demonstrando que a compreensão da funcionalidade da IA tem um valor substancial que vai além da simples melhoria do desempenho. Ainda assim, a compreensão completa dos sistemas de IA contemporâneos continua sendo um objetivo distante.

Artigo relacionado

A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam

Greg Brockman revela como Elon Musk deixou a OpenAI No final de agosto de 2017, figuras-chave da OpenAI — na época, um pequeno laboratório de pesquisa sem fins lucrativos — se reuniram para discutir como criariam uma entidade com fins lucrativos para c

O Pentágono assinou acordos com a Nvidia, a Microsoft e a AWS para implementar inteligência artificial em redes confidenciais. Após alcançar acordos anteriores com a Google, a SpaceX e a OpenAI, o Departamento de Defesa dos EUA anunciou na sexta-feira que assinou contratos com a Nvidia, a Microsoft, a Amazon Web Services e a Reflection AI para utilizar suas tecnologias e mod

Recomendações de tópicos especiais relacionados

Negócios

As melhores ferramentas de recrutamento com IA: analise currículos e automatize o agendamento de entrevistas com candidatos

Descubra as melhores ferramentas de recrutamento com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta soluções poderosas e revolucionárias para a triagem de currículos e a automação do agendamento de entrevistas com candidatos. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Encontre o seu assistente de contratação ideal e otimize seu processo de recrutamento hoje mesmo!

10 ferramentas

xix.ai

Produtividade

Treinadores de bem-estar e concentração com IA: controle o esgotamento e aumente os níveis de energia mental

Descubra os melhores coaches de bem-estar pessoal e concentração com IA de 2026 no XIX.AI. Nossos rankings selecionados apresentam ferramentas de ponta e revolucionárias para lidar com o esgotamento e aumentar a energia mental. Compare opções gratuitas e pagas com informações reais. Descubra hoje mesmo o caminho para atingir o máximo de produtividade e bem-estar.

10 ferramentas

xix.ai

chatbot

Os melhores chatbots românticos com IA: construa relacionamentos duradouros com personalidades consistentes

Descubra os melhores chatbots românticos com IA de 2026 para construir relacionamentos genuínos e duradouros. Nossa lista selecionada apresenta personalidades marcantes e consistentes, comparações entre versões gratuitas e pagas, além de testes práticos. Encontre seu companheiro ideal e comece a construir seu relacionamento hoje mesmo no XIX.AI.

10 ferramentas

xix.ai

Educação e Aprendizagem

Os melhores mentores em ciência de dados e inteligência artificial: domínio avançado em SQL, Pandas e fluxos de trabalho de aprendizado de máquina

Descubra os melhores mentores em ciência de dados com IA para 2026, que o ajudarão a dominar SQL, Pandas e fluxos de trabalho de aprendizado de máquina. Conheça nossa seleção cuidadosamente elaborada e altamente avaliada no XIX.AI para obter orientações poderosas e revolucionárias. Compare opções gratuitas e pagas com informações valiosas da prática real. Domine a ciência de dados hoje mesmo.

10 ferramentas

xix.ai

chatbot

Os melhores treinadores de paquera e conversação com IA: melhore seu carisma social e sua autoconfiança em tempo real

Descubra os melhores treinadores de conversação e paquera com IA de 2026 no XIX.AI. Nossa seleção cuidadosamente escolhida e com as melhores avaliações ajuda você a desenvolver carisma social e confiança em tempo real. Explore ferramentas imperdíveis e revolucionárias, com comparações entre versões gratuitas e pagas e rankings atualizados semanalmente. Descubra hoje mesmo o seu diferencial social.

10 ferramentas

xix.ai

código

Os melhores ferramentas de IA para testes unitários automatizados: geração de casos de teste Jest, PyTest e JUnit com apenas um clique

Descubra as mais recentes e bem avaliadas ferramentas de IA de 2026 para testes unitários automatizados. Nossa seleção cuidadosa inclui soluções poderosas que podem transformar o seu processo, permitindo gerar casos de teste para Jest, PyTest e JUnit de forma instantânea. Compare opções gratuitas e pagas com testes reais e classificações atualizadas semanalmente no XIX.AI. Desfrute das vantagens da IA e aumente a produtividade do seu desenvolvimento hoje mesmo.

10 ferramentas

xix.ai

Comentários (1)

0/500

Por favor, faça o login primeiro

DavidGonzalez

21 de Dezembro de 2025 à37 08:30:37 WET

Huh, interesting how AI models develop hidden personas... reminds me of my stubborn smart speaker. Are we teaching them to be too human-like for our own good? 🤔 This feels like a sci-fi plot coming true.

Principais notícias

AI Builder e Power Automate Revolucionam a Sumarização de Documentos Hosts de IA do podcast Notebooklm agora disponíveis para entrevistas China revela padrão nacional para robôs humanóides e inteligência incorporada Platôs de adoção de IA corporativa, revelam dados da Ramp Tutorial do Criador de Imagens do Bing: Guia de Geração de Arte por IA Aprenda a criar música de IA usando sua voz: um tutorial passo a passo do SUNO iMyFone MagicMic: Revisão e Tutorial de Mudança de Voz AI em Tempo Real Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas DeepSeek V4 surge como uma revolução na IA multimodal A Embodied Intelligence divulga a primeira norma do setor para conter o crescimento descontrolado

Mais

Apresentou