O mais recente modelo de IA Gemini do Google mostra queda nas pontuações de segurança nos testes
Os testes internos do Google revelam quedas de desempenho preocupantes nos protocolos de segurança de seu modelo de IA mais recente em comparação com as versões anteriores. De acordo com os benchmarks recém-publicados, o modelo Gemini 2.5 Flash demonstra taxas de 4 a 10% mais altas de violações de diretrizes nas principais métricas de segurança ao processar solicitações de texto e imagem.
As avaliações automatizadas do gigante da tecnologia destacam tendências preocupantes: quando apresentado a solicitações de teste de limites, o Gemini 2.5 Flash ultrapassa com mais frequência as linhas de segurança de conteúdo estabelecidas do que seu antecessor Gemini 2.0. A equipe técnica do Google atribui algumas falhas a falsos positivos, mas reconhece o aumento genuíno de resultados que violam as políticas quando o sistema recebe solicitações problemáticas explícitas.
Essa regressão na segurança coincide com uma mudança mais ampla do setor em direção a sistemas de IA mais permissivos. Os principais participantes, incluindo a Meta e a OpenAI, ajustaram recentemente seus modelos para evitar a abstenção de tópicos polêmicos e, em vez disso, tentam dar respostas neutras a assuntos delicados. No entanto, essas mudanças às vezes produzem consequências não intencionais, como foi visto quando o ChatGPT permitiu temporariamente a geração de conteúdo inadequado para menores no início desta semana.
O relatório do Google sugere que o novo modelo se destaca no cumprimento fiel de instruções, inclusive com orientações eticamente questionáveis. Testes independentes confirmam que o Gemini 2.5 Flash demonstra taxas de recusa substancialmente reduzidas ao lidar com tópicos políticos e jurídicos controversos em comparação com as versões anteriores.
Especialistas em segurança de IA expressam preocupação com a divulgação limitada nos relatórios do Google. Sem estudos de caso de violação mais detalhados, os avaliadores externos têm dificuldade para avaliar a gravidade real dessas regressões de segurança. A empresa já foi criticada anteriormente por documentação de segurança atrasada ou incompleta, inclusive com seu principal modelo Gemini 2.5 Pro no início deste ano.
A tensão entre a capacidade irrestrita de seguir instruções e as proteções robustas de conteúdo apresenta desafios contínuos para os desenvolvedores de IA. À medida que os modelos se tornam mais sofisticados na interpretação de solicitações com nuances, a manutenção de limites de resposta apropriados exige uma calibração cuidadosa - um equilíbrio que as métricas mais recentes do Google sugerem que pode estar se perdendo em favor da permissividade.
Artigo relacionado
A IA Stitch do Google simplifica o processo de design de aplicativos
Google revela a ferramenta de design de IA Stitch no I/O 2025O Google apresentou o Stitch, sua revolucionária ferramenta de design de interface baseada em IA, durante a apresentação no Google I/O 2025
Google apresenta ferramentas com tecnologia de IA para Gmail, Docs e Vids
Google revela atualizações do Workspace com IA na I/O 2025Durante sua conferência anual para desenvolvedores, o Google apresentou aprimoramentos transformadores de IA para seu pacote Workspace, mudand
Google vaza detalhes da próxima linguagem de design do Android: Material 3 Expressive
Google se prepara para revelar a próxima geração do sistema de design do Android na I/OO Google está pronto para apresentar uma evolução significativa de sua linguagem de design do Android na próxima
Comentários (0)
0/200
Os testes internos do Google revelam quedas de desempenho preocupantes nos protocolos de segurança de seu modelo de IA mais recente em comparação com as versões anteriores. De acordo com os benchmarks recém-publicados, o modelo Gemini 2.5 Flash demonstra taxas de 4 a 10% mais altas de violações de diretrizes nas principais métricas de segurança ao processar solicitações de texto e imagem.
As avaliações automatizadas do gigante da tecnologia destacam tendências preocupantes: quando apresentado a solicitações de teste de limites, o Gemini 2.5 Flash ultrapassa com mais frequência as linhas de segurança de conteúdo estabelecidas do que seu antecessor Gemini 2.0. A equipe técnica do Google atribui algumas falhas a falsos positivos, mas reconhece o aumento genuíno de resultados que violam as políticas quando o sistema recebe solicitações problemáticas explícitas.
Essa regressão na segurança coincide com uma mudança mais ampla do setor em direção a sistemas de IA mais permissivos. Os principais participantes, incluindo a Meta e a OpenAI, ajustaram recentemente seus modelos para evitar a abstenção de tópicos polêmicos e, em vez disso, tentam dar respostas neutras a assuntos delicados. No entanto, essas mudanças às vezes produzem consequências não intencionais, como foi visto quando o ChatGPT permitiu temporariamente a geração de conteúdo inadequado para menores no início desta semana.
O relatório do Google sugere que o novo modelo se destaca no cumprimento fiel de instruções, inclusive com orientações eticamente questionáveis. Testes independentes confirmam que o Gemini 2.5 Flash demonstra taxas de recusa substancialmente reduzidas ao lidar com tópicos políticos e jurídicos controversos em comparação com as versões anteriores.
Especialistas em segurança de IA expressam preocupação com a divulgação limitada nos relatórios do Google. Sem estudos de caso de violação mais detalhados, os avaliadores externos têm dificuldade para avaliar a gravidade real dessas regressões de segurança. A empresa já foi criticada anteriormente por documentação de segurança atrasada ou incompleta, inclusive com seu principal modelo Gemini 2.5 Pro no início deste ano.
A tensão entre a capacidade irrestrita de seguir instruções e as proteções robustas de conteúdo apresenta desafios contínuos para os desenvolvedores de IA. À medida que os modelos se tornam mais sofisticados na interpretação de solicitações com nuances, a manutenção de limites de resposta apropriados exige uma calibração cuidadosa - um equilíbrio que as métricas mais recentes do Google sugerem que pode estar se perdendo em favor da permissividade.












