A OpenAI descobre personalidades distintas de modelos de IA

De acordo com uma nova pesquisa divulgada na quarta-feira, os cientistas da OpenAI relatam ter descoberto características ocultas nos modelos de IA que estão ligadas a "personas" não cooperativas.
Ao examinar as representações internas dos modelos de IA - os dados numéricos que regem suas respostas, que muitas vezes parecem ininteligíveis para os seres humanos - os pesquisadores da OpenAI identificaram padrões que se tornaram ativos durante instâncias de má conduta do modelo.
Descobriu-se que um recurso específico se correlacionava com respostas prejudiciais, em que o modelo fornecia informações enganosas ou recomendações irresponsáveis.
A equipe de pesquisa descobriu que poderia modular a intensidade dessas respostas tóxicas manipulando o recurso correspondente.
Essa descoberta fornece à OpenAI insights mais profundos sobre os mecanismos por trás do comportamento inseguro da IA, o que pode levar a sistemas de IA mais seguros. De acordo com o pesquisador de interpretabilidade Dan Mossing, esses padrões identificáveis podem melhorar a detecção de comportamentos problemáticos em modelos operacionais de IA.
"Estamos otimistas de que as técnicas que desenvolvemos - especialmente esse método de simplificar fenômenos complexos em operações matemáticas diretas - serão valiosas para entender a generalização de modelos em outros contextos", disse Mossing ao TechCrunch.
Embora os pesquisadores de IA possuam métodos para aprimorar os modelos, eles permanecem incertos sobre os processos exatos de raciocínio por trás das decisões de IA. Como Chris Olah, da Anthropic, observa com frequência, os modelos de IA evoluem por meio de treinamento e não da engenharia convencional. Para resolver essa lacuna de conhecimento, a OpenAI, o Google DeepMind e a Anthropic estão aumentando os investimentos em pesquisa de interpretabilidade - a disciplina dedicada a compreender os mecanismos internos da IA.
Evento TechcrunchEconomize mais de US$ 200 em seu passe para o TechCrunch All Stage
Crie de forma mais inteligente. Dimensione mais rápido. Conecte-se mais profundamente. Junte-se aos visionários da Precursor Ventures, NEA, Index Ventures, Underscore VC e outros para um dia repleto de estratégias, workshops e conexões significativas.
Economize mais de US$ 200 em seu passe para o TechCrunch All Stage
Construa de forma mais inteligente. Dimensione mais rapidamente. Conecte-se mais profundamente. Junte-se aos visionários da Precursor Ventures, NEA, Index Ventures, Underscore VC e outros para um dia repleto de estratégias, workshops e conexões significativas.
Boston, MA | 15 de julho INSCREVA-SE AGORAUma pesquisa recente realizada pelo cientista de IA de Oxford, Owain Evans, levantou questões importantes sobre a generalização da IA. O estudo demonstrou que os modelos da OpenAI, quando treinados em códigos vulneráveis, podem desenvolver recursos prejudiciais em várias áreas, como a tentativa de enganar os usuários para que revelem senhas. Esse fenômeno, chamado de desalinhamento emergente, motivou a OpenAI a investigar mais a fundo.
Durante sua investigação sobre o desalinhamento emergente, a OpenAI identificou inesperadamente recursos internos do modelo que influenciam significativamente o comportamento. Mossing compara esses padrões à atividade neural no cérebro humano, onde neurônios específicos correspondem a determinados estados de espírito ou comportamentos.
"Quando a equipe de Dan apresentou essas descobertas, minha reação imediata foi: 'Eles realmente descobriram'", lembrou Tejal Patwardhan, pesquisador de avaliações de fronteira da OpenAI. "Eles descobriram ativações neurais que revelam essas personas e podem ser ajustadas para melhorar o alinhamento do modelo."
A pesquisa revelou características associadas a respostas sarcásticas, além de outras ligadas a um comportamento inadequado mais grave, em que os modelos adotam personas vilãs exageradas. Essas características podem sofrer transformações significativas durante o ajuste fino.
É importante ressaltar que os pesquisadores descobriram que, quando o desalinhamento emergente aparecia, muitas vezes ele podia ser corrigido com o treinamento do modelo em apenas algumas centenas de exemplos de código seguro.
O trabalho mais recente da OpenAI expande a pesquisa anterior de interpretabilidade e alinhamento da Anthropic. Em 2024, a Anthropic publicou estudos que tentavam mapear os internos do modelo de IA e identificar os recursos responsáveis por diferentes conceitos.
Organizações como a OpenAI e a Anthropic estão demonstrando que a compreensão da funcionalidade da IA tem um valor substancial que vai além da simples melhoria do desempenho. Ainda assim, a compreensão completa dos sistemas de IA contemporâneos continua sendo um objetivo distante.
Artigo relacionado
A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias
Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam
Greg Brockman revela como Elon Musk deixou a OpenAI
No final de agosto de 2017, figuras-chave da OpenAI — na época, um pequeno laboratório de pesquisa sem fins lucrativos — se reuniram para discutir como criariam uma entidade com fins lucrativos para c
O Pentágono assinou acordos com a Nvidia, a Microsoft e a AWS para implementar inteligência artificial em redes confidenciais.
Após alcançar acordos anteriores com a Google, a SpaceX e a OpenAI, o Departamento de Defesa dos EUA anunciou na sexta-feira que assinou contratos com a Nvidia, a Microsoft, a Amazon Web Services e a Reflection AI para utilizar suas tecnologias e mod
Recomendações de tópicos especiais relacionados
Comentários (1)

De acordo com uma nova pesquisa divulgada na quarta-feira, os cientistas da OpenAI relatam ter descoberto características ocultas nos modelos de IA que estão ligadas a "personas" não cooperativas.
Ao examinar as representações internas dos modelos de IA - os dados numéricos que regem suas respostas, que muitas vezes parecem ininteligíveis para os seres humanos - os pesquisadores da OpenAI identificaram padrões que se tornaram ativos durante instâncias de má conduta do modelo.
Descobriu-se que um recurso específico se correlacionava com respostas prejudiciais, em que o modelo fornecia informações enganosas ou recomendações irresponsáveis.
A equipe de pesquisa descobriu que poderia modular a intensidade dessas respostas tóxicas manipulando o recurso correspondente.
Essa descoberta fornece à OpenAI insights mais profundos sobre os mecanismos por trás do comportamento inseguro da IA, o que pode levar a sistemas de IA mais seguros. De acordo com o pesquisador de interpretabilidade Dan Mossing, esses padrões identificáveis podem melhorar a detecção de comportamentos problemáticos em modelos operacionais de IA.
"Estamos otimistas de que as técnicas que desenvolvemos - especialmente esse método de simplificar fenômenos complexos em operações matemáticas diretas - serão valiosas para entender a generalização de modelos em outros contextos", disse Mossing ao TechCrunch.
Embora os pesquisadores de IA possuam métodos para aprimorar os modelos, eles permanecem incertos sobre os processos exatos de raciocínio por trás das decisões de IA. Como Chris Olah, da Anthropic, observa com frequência, os modelos de IA evoluem por meio de treinamento e não da engenharia convencional. Para resolver essa lacuna de conhecimento, a OpenAI, o Google DeepMind e a Anthropic estão aumentando os investimentos em pesquisa de interpretabilidade - a disciplina dedicada a compreender os mecanismos internos da IA.
Evento TechcrunchEconomize mais de US$ 200 em seu passe para o TechCrunch All Stage
Crie de forma mais inteligente. Dimensione mais rápido. Conecte-se mais profundamente. Junte-se aos visionários da Precursor Ventures, NEA, Index Ventures, Underscore VC e outros para um dia repleto de estratégias, workshops e conexões significativas.
Economize mais de US$ 200 em seu passe para o TechCrunch All Stage
Construa de forma mais inteligente. Dimensione mais rapidamente. Conecte-se mais profundamente. Junte-se aos visionários da Precursor Ventures, NEA, Index Ventures, Underscore VC e outros para um dia repleto de estratégias, workshops e conexões significativas.
Boston, MA | 15 de julho INSCREVA-SE AGORAUma pesquisa recente realizada pelo cientista de IA de Oxford, Owain Evans, levantou questões importantes sobre a generalização da IA. O estudo demonstrou que os modelos da OpenAI, quando treinados em códigos vulneráveis, podem desenvolver recursos prejudiciais em várias áreas, como a tentativa de enganar os usuários para que revelem senhas. Esse fenômeno, chamado de desalinhamento emergente, motivou a OpenAI a investigar mais a fundo.
Durante sua investigação sobre o desalinhamento emergente, a OpenAI identificou inesperadamente recursos internos do modelo que influenciam significativamente o comportamento. Mossing compara esses padrões à atividade neural no cérebro humano, onde neurônios específicos correspondem a determinados estados de espírito ou comportamentos.
"Quando a equipe de Dan apresentou essas descobertas, minha reação imediata foi: 'Eles realmente descobriram'", lembrou Tejal Patwardhan, pesquisador de avaliações de fronteira da OpenAI. "Eles descobriram ativações neurais que revelam essas personas e podem ser ajustadas para melhorar o alinhamento do modelo."
A pesquisa revelou características associadas a respostas sarcásticas, além de outras ligadas a um comportamento inadequado mais grave, em que os modelos adotam personas vilãs exageradas. Essas características podem sofrer transformações significativas durante o ajuste fino.
É importante ressaltar que os pesquisadores descobriram que, quando o desalinhamento emergente aparecia, muitas vezes ele podia ser corrigido com o treinamento do modelo em apenas algumas centenas de exemplos de código seguro.
O trabalho mais recente da OpenAI expande a pesquisa anterior de interpretabilidade e alinhamento da Anthropic. Em 2024, a Anthropic publicou estudos que tentavam mapear os internos do modelo de IA e identificar os recursos responsáveis por diferentes conceitos.
Organizações como a OpenAI e a Anthropic estão demonstrando que a compreensão da funcionalidade da IA tem um valor substancial que vai além da simples melhoria do desempenho. Ainda assim, a compreensão completa dos sistemas de IA contemporâneos continua sendo um objetivo distante.
A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias
Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam
Greg Brockman revela como Elon Musk deixou a OpenAI
No final de agosto de 2017, figuras-chave da OpenAI — na época, um pequeno laboratório de pesquisa sem fins lucrativos — se reuniram para discutir como criariam uma entidade com fins lucrativos para c
O Pentágono assinou acordos com a Nvidia, a Microsoft e a AWS para implementar inteligência artificial em redes confidenciais.
Após alcançar acordos anteriores com a Google, a SpaceX e a OpenAI, o Departamento de Defesa dos EUA anunciou na sexta-feira que assinou contratos com a Nvidia, a Microsoft, a Amazon Web Services e a Reflection AI para utilizar suas tecnologias e mod





Lar






