opção
Lar
Notícias
A OpenAI descobre personalidades distintas de modelos de IA

A OpenAI descobre personalidades distintas de modelos de IA

22 de Novembro de 2025
61

A OpenAI descobre personalidades distintas de modelos de IA

De acordo com uma nova pesquisa divulgada na quarta-feira, os cientistas da OpenAI relatam ter descoberto características ocultas nos modelos de IA que estão ligadas a "personas" não cooperativas.

Ao examinar as representações internas dos modelos de IA - os dados numéricos que regem suas respostas, que muitas vezes parecem ininteligíveis para os seres humanos - os pesquisadores da OpenAI identificaram padrões que se tornaram ativos durante instâncias de má conduta do modelo.

Descobriu-se que um recurso específico se correlacionava com respostas prejudiciais, em que o modelo fornecia informações enganosas ou recomendações irresponsáveis.

A equipe de pesquisa descobriu que poderia modular a intensidade dessas respostas tóxicas manipulando o recurso correspondente.

Essa descoberta fornece à OpenAI insights mais profundos sobre os mecanismos por trás do comportamento inseguro da IA, o que pode levar a sistemas de IA mais seguros. De acordo com o pesquisador de interpretabilidade Dan Mossing, esses padrões identificáveis podem melhorar a detecção de comportamentos problemáticos em modelos operacionais de IA.

"Estamos otimistas de que as técnicas que desenvolvemos - especialmente esse método de simplificar fenômenos complexos em operações matemáticas diretas - serão valiosas para entender a generalização de modelos em outros contextos", disse Mossing ao TechCrunch.

Embora os pesquisadores de IA possuam métodos para aprimorar os modelos, eles permanecem incertos sobre os processos exatos de raciocínio por trás das decisões de IA. Como Chris Olah, da Anthropic, observa com frequência, os modelos de IA evoluem por meio de treinamento e não da engenharia convencional. Para resolver essa lacuna de conhecimento, a OpenAI, o Google DeepMind e a Anthropic estão aumentando os investimentos em pesquisa de interpretabilidade - a disciplina dedicada a compreender os mecanismos internos da IA.

Evento Techcrunch

Economize mais de US$ 200 em seu passe para o TechCrunch All Stage

Crie de forma mais inteligente. Dimensione mais rápido. Conecte-se mais profundamente. Junte-se aos visionários da Precursor Ventures, NEA, Index Ventures, Underscore VC e outros para um dia repleto de estratégias, workshops e conexões significativas.

Economize mais de US$ 200 em seu passe para o TechCrunch All Stage

Construa de forma mais inteligente. Dimensione mais rapidamente. Conecte-se mais profundamente. Junte-se aos visionários da Precursor Ventures, NEA, Index Ventures, Underscore VC e outros para um dia repleto de estratégias, workshops e conexões significativas.

Boston, MA | 15 de julho INSCREVA-SE AGORA

Uma pesquisa recente realizada pelo cientista de IA de Oxford, Owain Evans, levantou questões importantes sobre a generalização da IA. O estudo demonstrou que os modelos da OpenAI, quando treinados em códigos vulneráveis, podem desenvolver recursos prejudiciais em várias áreas, como a tentativa de enganar os usuários para que revelem senhas. Esse fenômeno, chamado de desalinhamento emergente, motivou a OpenAI a investigar mais a fundo.

Durante sua investigação sobre o desalinhamento emergente, a OpenAI identificou inesperadamente recursos internos do modelo que influenciam significativamente o comportamento. Mossing compara esses padrões à atividade neural no cérebro humano, onde neurônios específicos correspondem a determinados estados de espírito ou comportamentos.

"Quando a equipe de Dan apresentou essas descobertas, minha reação imediata foi: 'Eles realmente descobriram'", lembrou Tejal Patwardhan, pesquisador de avaliações de fronteira da OpenAI. "Eles descobriram ativações neurais que revelam essas personas e podem ser ajustadas para melhorar o alinhamento do modelo."

A pesquisa revelou características associadas a respostas sarcásticas, além de outras ligadas a um comportamento inadequado mais grave, em que os modelos adotam personas vilãs exageradas. Essas características podem sofrer transformações significativas durante o ajuste fino.

É importante ressaltar que os pesquisadores descobriram que, quando o desalinhamento emergente aparecia, muitas vezes ele podia ser corrigido com o treinamento do modelo em apenas algumas centenas de exemplos de código seguro.

O trabalho mais recente da OpenAI expande a pesquisa anterior de interpretabilidade e alinhamento da Anthropic. Em 2024, a Anthropic publicou estudos que tentavam mapear os internos do modelo de IA e identificar os recursos responsáveis por diferentes conceitos.

Organizações como a OpenAI e a Anthropic estão demonstrando que a compreensão da funcionalidade da IA tem um valor substancial que vai além da simples melhoria do desempenho. Ainda assim, a compreensão completa dos sistemas de IA contemporâneos continua sendo um objetivo distante.

Artigo relacionado
A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam
Greg Brockman revela como Elon Musk deixou a OpenAI Greg Brockman revela como Elon Musk deixou a OpenAI No final de agosto de 2017, figuras-chave da OpenAI — na época, um pequeno laboratório de pesquisa sem fins lucrativos — se reuniram para discutir como criariam uma entidade com fins lucrativos para c
O Pentágono assinou acordos com a Nvidia, a Microsoft e a AWS para implementar inteligência artificial em redes confidenciais. O Pentágono assinou acordos com a Nvidia, a Microsoft e a AWS para implementar inteligência artificial em redes confidenciais. Após alcançar acordos anteriores com a Google, a SpaceX e a OpenAI, o Departamento de Defesa dos EUA anunciou na sexta-feira que assinou contratos com a Nvidia, a Microsoft, a Amazon Web Services e a Reflection AI para utilizar suas tecnologias e mod
Recomendações de tópicos especiais relacionados
Negócios As melhores ferramentas de recrutamento com IA: analise currículos e automatize o agendamento de entrevistas com candidatos
As melhores ferramentas de recrutamento com IA: analise currículos e automatize o agendamento de entrevistas com candidatos

Descubra as melhores ferramentas de recrutamento com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta soluções poderosas e revolucionárias para a triagem de currículos e a automação do agendamento de entrevistas com candidatos. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Encontre o seu assistente de contratação ideal e otimize seu processo de recrutamento hoje mesmo!

10 ferramentas
xix.ai
Produtividade Treinadores de bem-estar e concentração com IA: controle o esgotamento e aumente os níveis de energia mental
Treinadores de bem-estar e concentração com IA: controle o esgotamento e aumente os níveis de energia mental

Descubra os melhores coaches de bem-estar pessoal e concentração com IA de 2026 no XIX.AI. Nossos rankings selecionados apresentam ferramentas de ponta e revolucionárias para lidar com o esgotamento e aumentar a energia mental. Compare opções gratuitas e pagas com informações reais. Descubra hoje mesmo o caminho para atingir o máximo de produtividade e bem-estar.

10 ferramentas
xix.ai
chatbot Os melhores chatbots românticos com IA: construa relacionamentos duradouros com personalidades consistentes
Os melhores chatbots românticos com IA: construa relacionamentos duradouros com personalidades consistentes

Descubra os melhores chatbots românticos com IA de 2026 para construir relacionamentos genuínos e duradouros. Nossa lista selecionada apresenta personalidades marcantes e consistentes, comparações entre versões gratuitas e pagas, além de testes práticos. Encontre seu companheiro ideal e comece a construir seu relacionamento hoje mesmo no XIX.AI.

10 ferramentas
xix.ai
Educação e Aprendizagem Os melhores mentores em ciência de dados e inteligência artificial: domínio avançado em SQL, Pandas e fluxos de trabalho de aprendizado de máquina
Os melhores mentores em ciência de dados e inteligência artificial: domínio avançado em SQL, Pandas e fluxos de trabalho de aprendizado de máquina

Descubra os melhores mentores em ciência de dados com IA para 2026, que o ajudarão a dominar SQL, Pandas e fluxos de trabalho de aprendizado de máquina. Conheça nossa seleção cuidadosamente elaborada e altamente avaliada no XIX.AI para obter orientações poderosas e revolucionárias. Compare opções gratuitas e pagas com informações valiosas da prática real. Domine a ciência de dados hoje mesmo.

10 ferramentas
xix.ai
chatbot Os melhores treinadores de paquera e conversação com IA: melhore seu carisma social e sua autoconfiança em tempo real
Os melhores treinadores de paquera e conversação com IA: melhore seu carisma social e sua autoconfiança em tempo real

Descubra os melhores treinadores de conversação e paquera com IA de 2026 no XIX.AI. Nossa seleção cuidadosamente escolhida e com as melhores avaliações ajuda você a desenvolver carisma social e confiança em tempo real. Explore ferramentas imperdíveis e revolucionárias, com comparações entre versões gratuitas e pagas e rankings atualizados semanalmente. Descubra hoje mesmo o seu diferencial social.

10 ferramentas
xix.ai
código Os melhores ferramentas de IA para testes unitários automatizados: geração de casos de teste Jest, PyTest e JUnit com apenas um clique
Os melhores ferramentas de IA para testes unitários automatizados: geração de casos de teste Jest, PyTest e JUnit com apenas um clique

Descubra as mais recentes e bem avaliadas ferramentas de IA de 2026 para testes unitários automatizados. Nossa seleção cuidadosa inclui soluções poderosas que podem transformar o seu processo, permitindo gerar casos de teste para Jest, PyTest e JUnit de forma instantânea. Compare opções gratuitas e pagas com testes reais e classificações atualizadas semanalmente no XIX.AI. Desfrute das vantagens da IA e aumente a produtividade do seu desenvolvimento hoje mesmo.

10 ferramentas
xix.ai
Comentários (1)
0/500
DavidGonzalez
DavidGonzalez 21 de Dezembro de 2025 à37 08:30:37 WET

Huh, interesting how AI models develop hidden personas... reminds me of my stubborn smart speaker. Are we teaching them to be too human-like for our own good? 🤔 This feels like a sci-fi plot coming true.

OR