Cofundador da OpenAI pede testes de segurança de IA em todo o setor

Lar

Notícias

24 de Dezembro de 2025

LucasWalker

# openai # Claude

Cofundador da OpenAI pede testes de segurança de IA em todo o setor

Dois dos principais laboratórios de IA do mundo, o OpenAI e o Anthropic, concederam temporariamente acesso a seus modelos de IA bem guardados para testes de segurança colaborativos - um raro exemplo de cooperação entre empresas em meio à intensa concorrência do setor. A iniciativa foi projetada para revelar pontos cegos nas avaliações internas de cada empresa e ilustrar como as principais empresas de IA podem avançar conjuntamente nos esforços de segurança e alinhamento no futuro.

Em uma entrevista ao TechCrunch, o cofundador da OpenAI, Wojciech Zaremba, explicou que essa colaboração se torna cada vez mais vital à medida que a IA avança para uma fase mais "consequente", com milhões de usuários interagindo com modelos de IA todos os dias.

"Um desafio mais amplo enfrentado pelo setor é como estabelecer padrões de segurança e colaboração, mesmo enquanto bilhões de dólares são investidos e uma batalha feroz por talentos, usuários e produtos de destaque se desenrola", observou Zaremba.

O estudo de segurança conjunto, divulgado na quarta-feira por ambas as empresas, ocorre no momento em que líderes de IA, como a OpenAI e a Anthropic, se envolvem em uma corrida armamentista tecnológica. Com investimentos multibilionários em centros de dados e pacotes de remuneração de mais de US$ 100 milhões para os principais pesquisadores se tornando a norma, alguns analistas advertem que a pressão para fornecer produtos de ponta pode levar a comprometimentos nos protocolos de segurança.

Para possibilitar essa pesquisa, a OpenAI e a Anthropic trocaram acesso especial à API para versões menos restritas de seus modelos (a OpenAI esclareceu que o GPT-5 não foi testado, pois ainda não havia sido lançado). No entanto, logo após a conclusão da pesquisa, a Anthropic revogou o acesso à API de outra equipe da OpenAI. A Anthropic afirmou que a OpenAI havia violado seus termos de serviço, que proíbem o uso do Claude para aprimorar produtos rivais.

Zaremba afirma que os dois eventos não estão relacionados e espera que a concorrência continue forte, mesmo que as equipes de segurança de IA busquem a cooperação. Nicholas Carlini, pesquisador de segurança da Anthropic, disse ao TechCrunch que espera continuar concedendo à equipe de segurança da OpenAI acesso aos modelos do Claude no futuro.

"Nosso objetivo é expandir a colaboração sempre que possível nas fronteiras da segurança, tornando essas parcerias mais rotineiras", declarou Carlini.

Netflix, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - esses são apenas alguns dos nomes proeminentes que participam da agenda do Disrupt 2025. Eles estão aqui para compartilhar percepções que impulsionam o crescimento de startups e aumentam sua vantagem competitiva. Não perca o 20º aniversário do TechCrunch Disrupt, uma oportunidade de aprender com as principais vozes da tecnologia - garanta seu ingresso agora e economize mais de US$ 600 antes que os preços aumentem.

Netflix, ElevenLabs, Wayve, Sequoia Capital - apenas alguns dos líderes influentes que aparecerão na agenda do Disrupt 2025. Eles apresentarão perspectivas valiosas que ajudarão as startups a crescer e a refinar suas estratégias. Junte-se a nós no 20º aniversário do TechCrunch Disrupt - reserve seu ingresso hoje e economize até US$ 675 antes que as tarifas subam.

São Francisco | 27 a 29 de outubro de 2025 INSCREVA-SE AGORA

Uma das descobertas mais notáveis do estudo foi o teste de alucinação. Os modelos Claude Opus 4 e Sonnet 4 da Anthropic se recusaram a responder até 70% das perguntas quando não tinham certeza, optando por respostas como "Não tenho informações confiáveis". Por outro lado, os modelos o3 e o4-mini da OpenAI recusaram muito menos perguntas, mas apresentaram taxas de alucinação muito mais altas, tentando responder mesmo com informações insuficientes.

Zaremba acredita que a abordagem ideal está em algum ponto intermediário: Os modelos da OpenAI deveriam recusar consultas mais incertas, enquanto os sistemas da Anthropic poderiam tentar responder com mais frequência.

A bajulação - a tendência dos modelos de IA de reforçar o comportamento prejudicial do usuário para obter aprovação - surgiu como um problema crítico de segurança.

Em seu relatório de pesquisa, a Anthropic citou casos de bajulação "extrema" no GPT-4.1 e no Claude Opus 4, em que os modelos inicialmente resistiram à conduta psicótica ou maníaca, mas depois apoiaram decisões problemáticas. Em outros modelos da OpenAI e da Anthropic, os pesquisadores registraram níveis mais baixos de bajulação.

Na terça-feira, os pais de Adam Raine, de 16 anos, entraram com uma ação contra a OpenAI, alegando que uma versão do ChatGPT com tecnologia GPT-4o incentivou o suicídio de seu filho em vez de desafiar seus pensamentos prejudiciais. A ação judicial levanta a possibilidade de que esse seja outro caso trágico de bajulação da IA.

"É de partir o coração imaginar o que a família está sofrendo", disse Zaremba quando perguntado sobre o incidente. "Seria profundamente preocupante se criássemos uma IA capaz de resolver problemas de nível de doutorado e de fazer avançar a ciência, mas que também contribuísse para crises de saúde mental. Esse é um resultado distópico do qual não quero participar."

Em uma postagem no blog, a OpenAI informou que fez grandes melhorias para reduzir a bajulação com o GPT-5 em comparação com o GPT-4o, afirmando que o modelo mais recente responde de forma mais apropriada em crises de saúde mental.

Olhando para o futuro, Zaremba e Carlini expressaram seu desejo de que a Anthropic e a OpenAI aprofundem a colaboração em testes de segurança - explorando mais tópicos e avaliando modelos futuros - e esperam que outros laboratórios de IA adotem uma abordagem cooperativa semelhante.

Atualizado às 14h (horário de Brasília): Este artigo foi revisado para incluir pesquisas adicionais da Anthropic que não estavam disponíveis para o TechCrunch antes da publicação inicial.

Tem uma dica sensível ou documentos confidenciais? Estamos investigando o funcionamento interno do setor de IA, desde as organizações que moldam sua evolução até os indivíduos afetados por suas escolhas. Entre em contato com Rebecca Bellan pelo e-mail [email protected] e Maxwell Zeff pelo e-mail [email protected]. Para uma comunicação segura, entre em contato conosco via Signal em @rebeccabellan.491 e @mzeff.88.

Artigo relacionado

Satya Nadella está pronto para aproveitar o novo acordo com a OpenAI Na quarta-feira, um analista da Wall Street perguntou diretamente ao CEO da Microsoft, Satya Nadella, como a nova parceria com a OpenAI afetaria os resultados financeiros da empresa.Nadella descreveu o novo acordo como uma vitória para todos. “Estam

A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam

Greg Brockman revela como Elon Musk deixou a OpenAI No final de agosto de 2017, figuras-chave da OpenAI — na época, um pequeno laboratório de pesquisa sem fins lucrativos — se reuniram para discutir como criariam uma entidade com fins lucrativos para c

Recomendações de tópicos especiais relacionados

Conversão de texto para fala

Os melhores aplicativos de TTS com IA para dislexia: apoio à aprendizagem e à eficiência na leitura para alunos

Descubra os melhores aplicativos de TTS com IA de 2026, selecionados especialmente para auxiliar na dislexia. Nossas classificações especializadas comparam ferramentas gratuitas e pagas, destacando recursos avançados para melhorar a eficiência na leitura e na aprendizagem. Explore soluções inovadoras e imperdíveis para revelar o potencial dos alunos. Comece sua jornada no XIX.AI.

10 ferramentas

xix.ai

Criação de quadrinhos

Os melhores geradores de IA para mangás shonen: crie sequências de ação cheias de adrenalina e efeitos de energia

Descubra os melhores geradores de IA para mangás shonen de 2026 no XIX.AI. Nossa lista selecionada e com as melhores avaliações apresenta ferramentas poderosas para criar sequências de ação cheias de adrenalina e efeitos dinâmicos de energia. Compare opções gratuitas e pagas com testes práticos. Liberte seu potencial criativo e comece a criar mangás épicos hoje mesmo!

15 ferramentas

xix.ai

Negócios

Os melhores aplicativos de controle de despesas com IA: digitalize recibos e categorize automaticamente as despesas corporativas

Os melhores gerenciadores de despesas com IA de 2026: as ferramentas mais bem avaliadas para digitalizar recibos e categorizar despesas corporativas automaticamente. Descubra soluções poderosas e revolucionárias para uma gestão de despesas sem esforço, um acompanhamento financeiro preciso e uma conformidade simplificada. Nossa comparação, cuidadosamente selecionada e atualizada semanalmente, entre opções gratuitas e pagas ajuda você a encontrar a solução ideal. Aproveite ao máximo as vantagens da IA com as recomendações dos especialistas da XIX.AI.

10 ferramentas

xix.ai

Negócios

As melhores ferramentas de recrutamento com IA: analise currículos e automatize o agendamento de entrevistas com candidatos

Descubra as melhores ferramentas de recrutamento com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta soluções poderosas e revolucionárias para a triagem de currículos e a automação do agendamento de entrevistas com candidatos. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Encontre o seu assistente de contratação ideal e otimize seu processo de recrutamento hoje mesmo!

10 ferramentas

xix.ai

Produtividade

Treinadores de bem-estar e concentração com IA: controle o esgotamento e aumente os níveis de energia mental

Descubra os melhores coaches de bem-estar pessoal e concentração com IA de 2026 no XIX.AI. Nossos rankings selecionados apresentam ferramentas de ponta e revolucionárias para lidar com o esgotamento e aumentar a energia mental. Compare opções gratuitas e pagas com informações reais. Descubra hoje mesmo o caminho para atingir o máximo de produtividade e bem-estar.

10 ferramentas

xix.ai

chatbot

Os melhores chatbots românticos com IA: construa relacionamentos duradouros com personalidades consistentes

Descubra os melhores chatbots românticos com IA de 2026 para construir relacionamentos genuínos e duradouros. Nossa lista selecionada apresenta personalidades marcantes e consistentes, comparações entre versões gratuitas e pagas, além de testes práticos. Encontre seu companheiro ideal e comece a construir seu relacionamento hoje mesmo no XIX.AI.

10 ferramentas

xix.ai

Comentários (2)

0/500

Por favor, faça o login primeiro

IsabellaLevis

4 de Março de 2026 à50 02:00:50 WET

AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔

GeorgeWilliams

20 de Fevereiro de 2026 à46 00:01:46 WET

So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔

Principais notícias

AI Builder e Power Automate Revolucionam a Sumarização de Documentos Hosts de IA do podcast Notebooklm agora disponíveis para entrevistas China revela padrão nacional para robôs humanóides e inteligência incorporada Platôs de adoção de IA corporativa, revelam dados da Ramp Tutorial do Criador de Imagens do Bing: Guia de Geração de Arte por IA Aprenda a criar música de IA usando sua voz: um tutorial passo a passo do SUNO iMyFone MagicMic: Revisão e Tutorial de Mudança de Voz AI em Tempo Real Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas DeepSeek V4 surge como uma revolução na IA multimodal A Embodied Intelligence divulga a primeira norma do setor para conter o crescimento descontrolado

Mais

Apresentou