Cofundador da OpenAI pede testes de segurança de IA em todo o setor

Dois dos principais laboratórios de IA do mundo, o OpenAI e o Anthropic, concederam temporariamente acesso a seus modelos de IA bem guardados para testes de segurança colaborativos - um raro exemplo de cooperação entre empresas em meio à intensa concorrência do setor. A iniciativa foi projetada para revelar pontos cegos nas avaliações internas de cada empresa e ilustrar como as principais empresas de IA podem avançar conjuntamente nos esforços de segurança e alinhamento no futuro.
Em uma entrevista ao TechCrunch, o cofundador da OpenAI, Wojciech Zaremba, explicou que essa colaboração se torna cada vez mais vital à medida que a IA avança para uma fase mais "consequente", com milhões de usuários interagindo com modelos de IA todos os dias.
"Um desafio mais amplo enfrentado pelo setor é como estabelecer padrões de segurança e colaboração, mesmo enquanto bilhões de dólares são investidos e uma batalha feroz por talentos, usuários e produtos de destaque se desenrola", observou Zaremba.
O estudo de segurança conjunto, divulgado na quarta-feira por ambas as empresas, ocorre no momento em que líderes de IA, como a OpenAI e a Anthropic, se envolvem em uma corrida armamentista tecnológica. Com investimentos multibilionários em centros de dados e pacotes de remuneração de mais de US$ 100 milhões para os principais pesquisadores se tornando a norma, alguns analistas advertem que a pressão para fornecer produtos de ponta pode levar a comprometimentos nos protocolos de segurança.
Para possibilitar essa pesquisa, a OpenAI e a Anthropic trocaram acesso especial à API para versões menos restritas de seus modelos (a OpenAI esclareceu que o GPT-5 não foi testado, pois ainda não havia sido lançado). No entanto, logo após a conclusão da pesquisa, a Anthropic revogou o acesso à API de outra equipe da OpenAI. A Anthropic afirmou que a OpenAI havia violado seus termos de serviço, que proíbem o uso do Claude para aprimorar produtos rivais.
Zaremba afirma que os dois eventos não estão relacionados e espera que a concorrência continue forte, mesmo que as equipes de segurança de IA busquem a cooperação. Nicholas Carlini, pesquisador de segurança da Anthropic, disse ao TechCrunch que espera continuar concedendo à equipe de segurança da OpenAI acesso aos modelos do Claude no futuro.
"Nosso objetivo é expandir a colaboração sempre que possível nas fronteiras da segurança, tornando essas parcerias mais rotineiras", declarou Carlini.
Pesos pesados da tecnologia e do capital de risco participam da agenda do Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - esses são apenas alguns dos nomes proeminentes que participam da agenda do Disrupt 2025. Eles estão aqui para compartilhar percepções que impulsionam o crescimento de startups e aumentam sua vantagem competitiva. Não perca o 20º aniversário do TechCrunch Disrupt, uma oportunidade de aprender com as principais vozes da tecnologia - garanta seu ingresso agora e economize mais de US$ 600 antes que os preços aumentem.
Pesos pesados da tecnologia e do capital de risco participam da agenda do Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital - apenas alguns dos líderes influentes que aparecerão na agenda do Disrupt 2025. Eles apresentarão perspectivas valiosas que ajudarão as startups a crescer e a refinar suas estratégias. Junte-se a nós no 20º aniversário do TechCrunch Disrupt - reserve seu ingresso hoje e economize até US$ 675 antes que as tarifas subam.
São Francisco | 27 a 29 de outubro de 2025 INSCREVA-SE AGORAUma das descobertas mais notáveis do estudo foi o teste de alucinação. Os modelos Claude Opus 4 e Sonnet 4 da Anthropic se recusaram a responder até 70% das perguntas quando não tinham certeza, optando por respostas como "Não tenho informações confiáveis". Por outro lado, os modelos o3 e o4-mini da OpenAI recusaram muito menos perguntas, mas apresentaram taxas de alucinação muito mais altas, tentando responder mesmo com informações insuficientes.
Zaremba acredita que a abordagem ideal está em algum ponto intermediário: Os modelos da OpenAI deveriam recusar consultas mais incertas, enquanto os sistemas da Anthropic poderiam tentar responder com mais frequência.
A bajulação - a tendência dos modelos de IA de reforçar o comportamento prejudicial do usuário para obter aprovação - surgiu como um problema crítico de segurança.
Em seu relatório de pesquisa, a Anthropic citou casos de bajulação "extrema" no GPT-4.1 e no Claude Opus 4, em que os modelos inicialmente resistiram à conduta psicótica ou maníaca, mas depois apoiaram decisões problemáticas. Em outros modelos da OpenAI e da Anthropic, os pesquisadores registraram níveis mais baixos de bajulação.
Na terça-feira, os pais de Adam Raine, de 16 anos, entraram com uma ação contra a OpenAI, alegando que uma versão do ChatGPT com tecnologia GPT-4o incentivou o suicídio de seu filho em vez de desafiar seus pensamentos prejudiciais. A ação judicial levanta a possibilidade de que esse seja outro caso trágico de bajulação da IA.
"É de partir o coração imaginar o que a família está sofrendo", disse Zaremba quando perguntado sobre o incidente. "Seria profundamente preocupante se criássemos uma IA capaz de resolver problemas de nível de doutorado e de fazer avançar a ciência, mas que também contribuísse para crises de saúde mental. Esse é um resultado distópico do qual não quero participar."
Em uma postagem no blog, a OpenAI informou que fez grandes melhorias para reduzir a bajulação com o GPT-5 em comparação com o GPT-4o, afirmando que o modelo mais recente responde de forma mais apropriada em crises de saúde mental.
Olhando para o futuro, Zaremba e Carlini expressaram seu desejo de que a Anthropic e a OpenAI aprofundem a colaboração em testes de segurança - explorando mais tópicos e avaliando modelos futuros - e esperam que outros laboratórios de IA adotem uma abordagem cooperativa semelhante.
Atualizado às 14h (horário de Brasília): Este artigo foi revisado para incluir pesquisas adicionais da Anthropic que não estavam disponíveis para o TechCrunch antes da publicação inicial.
Tem uma dica sensível ou documentos confidenciais? Estamos investigando o funcionamento interno do setor de IA, desde as organizações que moldam sua evolução até os indivíduos afetados por suas escolhas. Entre em contato com Rebecca Bellan pelo e-mail [email protected] e Maxwell Zeff pelo e-mail [email protected]. Para uma comunicação segura, entre em contato conosco via Signal em @rebeccabellan.491 e @mzeff.88.
Artigo relacionado
Satya Nadella está pronto para aproveitar o novo acordo com a OpenAI
Na quarta-feira, um analista da Wall Street perguntou diretamente ao CEO da Microsoft, Satya Nadella, como a nova parceria com a OpenAI afetaria os resultados financeiros da empresa.Nadella descreveu o novo acordo como uma vitória para todos. “Estam
A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias
Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam
Greg Brockman revela como Elon Musk deixou a OpenAI
No final de agosto de 2017, figuras-chave da OpenAI — na época, um pequeno laboratório de pesquisa sem fins lucrativos — se reuniram para discutir como criariam uma entidade com fins lucrativos para c
Recomendações de tópicos especiais relacionados
Comentários (2)
AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔
So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔

Dois dos principais laboratórios de IA do mundo, o OpenAI e o Anthropic, concederam temporariamente acesso a seus modelos de IA bem guardados para testes de segurança colaborativos - um raro exemplo de cooperação entre empresas em meio à intensa concorrência do setor. A iniciativa foi projetada para revelar pontos cegos nas avaliações internas de cada empresa e ilustrar como as principais empresas de IA podem avançar conjuntamente nos esforços de segurança e alinhamento no futuro.
Em uma entrevista ao TechCrunch, o cofundador da OpenAI, Wojciech Zaremba, explicou que essa colaboração se torna cada vez mais vital à medida que a IA avança para uma fase mais "consequente", com milhões de usuários interagindo com modelos de IA todos os dias.
"Um desafio mais amplo enfrentado pelo setor é como estabelecer padrões de segurança e colaboração, mesmo enquanto bilhões de dólares são investidos e uma batalha feroz por talentos, usuários e produtos de destaque se desenrola", observou Zaremba.
O estudo de segurança conjunto, divulgado na quarta-feira por ambas as empresas, ocorre no momento em que líderes de IA, como a OpenAI e a Anthropic, se envolvem em uma corrida armamentista tecnológica. Com investimentos multibilionários em centros de dados e pacotes de remuneração de mais de US$ 100 milhões para os principais pesquisadores se tornando a norma, alguns analistas advertem que a pressão para fornecer produtos de ponta pode levar a comprometimentos nos protocolos de segurança.
Para possibilitar essa pesquisa, a OpenAI e a Anthropic trocaram acesso especial à API para versões menos restritas de seus modelos (a OpenAI esclareceu que o GPT-5 não foi testado, pois ainda não havia sido lançado). No entanto, logo após a conclusão da pesquisa, a Anthropic revogou o acesso à API de outra equipe da OpenAI. A Anthropic afirmou que a OpenAI havia violado seus termos de serviço, que proíbem o uso do Claude para aprimorar produtos rivais.
Zaremba afirma que os dois eventos não estão relacionados e espera que a concorrência continue forte, mesmo que as equipes de segurança de IA busquem a cooperação. Nicholas Carlini, pesquisador de segurança da Anthropic, disse ao TechCrunch que espera continuar concedendo à equipe de segurança da OpenAI acesso aos modelos do Claude no futuro.
"Nosso objetivo é expandir a colaboração sempre que possível nas fronteiras da segurança, tornando essas parcerias mais rotineiras", declarou Carlini.
Pesos pesados da tecnologia e do capital de risco participam da agenda do Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - esses são apenas alguns dos nomes proeminentes que participam da agenda do Disrupt 2025. Eles estão aqui para compartilhar percepções que impulsionam o crescimento de startups e aumentam sua vantagem competitiva. Não perca o 20º aniversário do TechCrunch Disrupt, uma oportunidade de aprender com as principais vozes da tecnologia - garanta seu ingresso agora e economize mais de US$ 600 antes que os preços aumentem.
Pesos pesados da tecnologia e do capital de risco participam da agenda do Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital - apenas alguns dos líderes influentes que aparecerão na agenda do Disrupt 2025. Eles apresentarão perspectivas valiosas que ajudarão as startups a crescer e a refinar suas estratégias. Junte-se a nós no 20º aniversário do TechCrunch Disrupt - reserve seu ingresso hoje e economize até US$ 675 antes que as tarifas subam.
São Francisco | 27 a 29 de outubro de 2025 INSCREVA-SE AGORAUma das descobertas mais notáveis do estudo foi o teste de alucinação. Os modelos Claude Opus 4 e Sonnet 4 da Anthropic se recusaram a responder até 70% das perguntas quando não tinham certeza, optando por respostas como "Não tenho informações confiáveis". Por outro lado, os modelos o3 e o4-mini da OpenAI recusaram muito menos perguntas, mas apresentaram taxas de alucinação muito mais altas, tentando responder mesmo com informações insuficientes.
Zaremba acredita que a abordagem ideal está em algum ponto intermediário: Os modelos da OpenAI deveriam recusar consultas mais incertas, enquanto os sistemas da Anthropic poderiam tentar responder com mais frequência.
A bajulação - a tendência dos modelos de IA de reforçar o comportamento prejudicial do usuário para obter aprovação - surgiu como um problema crítico de segurança.
Em seu relatório de pesquisa, a Anthropic citou casos de bajulação "extrema" no GPT-4.1 e no Claude Opus 4, em que os modelos inicialmente resistiram à conduta psicótica ou maníaca, mas depois apoiaram decisões problemáticas. Em outros modelos da OpenAI e da Anthropic, os pesquisadores registraram níveis mais baixos de bajulação.
Na terça-feira, os pais de Adam Raine, de 16 anos, entraram com uma ação contra a OpenAI, alegando que uma versão do ChatGPT com tecnologia GPT-4o incentivou o suicídio de seu filho em vez de desafiar seus pensamentos prejudiciais. A ação judicial levanta a possibilidade de que esse seja outro caso trágico de bajulação da IA.
"É de partir o coração imaginar o que a família está sofrendo", disse Zaremba quando perguntado sobre o incidente. "Seria profundamente preocupante se criássemos uma IA capaz de resolver problemas de nível de doutorado e de fazer avançar a ciência, mas que também contribuísse para crises de saúde mental. Esse é um resultado distópico do qual não quero participar."
Em uma postagem no blog, a OpenAI informou que fez grandes melhorias para reduzir a bajulação com o GPT-5 em comparação com o GPT-4o, afirmando que o modelo mais recente responde de forma mais apropriada em crises de saúde mental.
Olhando para o futuro, Zaremba e Carlini expressaram seu desejo de que a Anthropic e a OpenAI aprofundem a colaboração em testes de segurança - explorando mais tópicos e avaliando modelos futuros - e esperam que outros laboratórios de IA adotem uma abordagem cooperativa semelhante.
Atualizado às 14h (horário de Brasília): Este artigo foi revisado para incluir pesquisas adicionais da Anthropic que não estavam disponíveis para o TechCrunch antes da publicação inicial.
Tem uma dica sensível ou documentos confidenciais? Estamos investigando o funcionamento interno do setor de IA, desde as organizações que moldam sua evolução até os indivíduos afetados por suas escolhas. Entre em contato com Rebecca Bellan pelo e-mail [email protected] e Maxwell Zeff pelo e-mail [email protected]. Para uma comunicação segura, entre em contato conosco via Signal em @rebeccabellan.491 e @mzeff.88.
Satya Nadella está pronto para aproveitar o novo acordo com a OpenAI
Na quarta-feira, um analista da Wall Street perguntou diretamente ao CEO da Microsoft, Satya Nadella, como a nova parceria com a OpenAI afetaria os resultados financeiros da empresa.Nadella descreveu o novo acordo como uma vitória para todos. “Estam
A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias
Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam
Greg Brockman revela como Elon Musk deixou a OpenAI
No final de agosto de 2017, figuras-chave da OpenAI — na época, um pequeno laboratório de pesquisa sem fins lucrativos — se reuniram para discutir como criariam uma entidade com fins lucrativos para c
AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔
So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔





Lar






