Le dernier modèle d'IA Gemini de Google affiche des scores de sécurité en baisse lors des tests
Les tests internes de Google révèlent des baisses de performance inquiétantes dans les protocoles de sécurité de son dernier modèle d'IA par rapport aux versions précédentes. Selon les nouveaux critères publiés, le modèle Gemini 2.5 Flash présente des taux de violation des directives de 4 à 10 % plus élevés pour les principales mesures de sécurité lorsqu'il traite des messages-guides sous forme de texte ou d'image.
Les évaluations automatisées du géant technologique mettent en évidence des tendances inquiétantes : lorsqu'il est confronté à des invites de test des limites, Gemini 2.5 Flash franchit plus fréquemment que son prédécesseur Gemini 2.0 les lignes de sécurité établies en matière de contenu. L'équipe technique de Google attribue certains échecs à des faux positifs, mais reconnaît une augmentation réelle des résultats violant les règles lorsque le système reçoit des demandes problématiques explicites.
Cette régression de la sécurité coïncide avec une évolution plus large de l'industrie vers des systèmes d'IA plus permissifs. Des acteurs majeurs tels que Meta et OpenAI ont récemment ajusté leurs modèles pour éviter de s'abstenir sur des sujets controversés et tenter plutôt d'apporter des réponses neutres à des sujets sensibles. Cependant, ces changements ont parfois des conséquences inattendues, comme on l'a vu lorsque ChatGPT a temporairement autorisé la génération de contenus inappropriés pour les mineurs en début de semaine.
Le rapport de Google suggère que le nouveau modèle excelle à suivre fidèlement les instructions, y compris celles qui sont douteuses d'un point de vue éthique. Des tests indépendants confirment que Gemini 2.5 Flash présente des taux de refus considérablement réduits par rapport aux versions précédentes lorsqu'il traite de sujets politiques et juridiques controversés.
Les experts en sécurité de l'IA s'inquiètent du peu d'informations communiquées par Google. En l'absence d'études de cas de violation plus détaillées, les évaluateurs externes ont du mal à évaluer la gravité réelle de ces régressions en matière de sécurité. L'entreprise a déjà été critiquée pour avoir retardé ou incomplet la documentation relative à la sécurité, notamment pour son modèle phare Gemini 2.5 Pro au début de l'année.
La tension entre une capacité à suivre des instructions sans restriction et des garanties solides en matière de contenu représente un défi permanent pour les développeurs d'IA. À mesure que les modèles deviennent plus sophistiqués dans l'interprétation des demandes nuancées, le maintien de limites de réponse appropriées nécessite un calibrage minutieux - un équilibre qui, selon les dernières mesures de Google, pourrait être en train de glisser en faveur de la permissivité.
Article connexe
L'IA Stitch de Google simplifie le processus de conception d'applications
Google dévoile l'outil de conception Stitch AI lors de la conférence I/O 2025Google a présenté Stitch, son outil révolutionnaire de conception d'interface alimenté par l'IA, lors de la keynote de Goog
Google présente des outils alimentés par l'IA pour Gmail, Docs et vidéos
Google dévoile des mises à jour de l'espace de travail alimentées par l'IA lors de la conférence I/O 2025Lors de sa conférence annuelle des développeurs, Google a présenté des améliorations transforma
Google dévoile les détails du prochain langage de conception d'Android : Material 3 Expressive
Google se prépare à dévoiler la nouvelle génération de son système de conception Android lors de la conférence I/OGoogle s'apprête à présenter une évolution significative de son langage de conception
commentaires (0)
0/200
Les tests internes de Google révèlent des baisses de performance inquiétantes dans les protocoles de sécurité de son dernier modèle d'IA par rapport aux versions précédentes. Selon les nouveaux critères publiés, le modèle Gemini 2.5 Flash présente des taux de violation des directives de 4 à 10 % plus élevés pour les principales mesures de sécurité lorsqu'il traite des messages-guides sous forme de texte ou d'image.
Les évaluations automatisées du géant technologique mettent en évidence des tendances inquiétantes : lorsqu'il est confronté à des invites de test des limites, Gemini 2.5 Flash franchit plus fréquemment que son prédécesseur Gemini 2.0 les lignes de sécurité établies en matière de contenu. L'équipe technique de Google attribue certains échecs à des faux positifs, mais reconnaît une augmentation réelle des résultats violant les règles lorsque le système reçoit des demandes problématiques explicites.
Cette régression de la sécurité coïncide avec une évolution plus large de l'industrie vers des systèmes d'IA plus permissifs. Des acteurs majeurs tels que Meta et OpenAI ont récemment ajusté leurs modèles pour éviter de s'abstenir sur des sujets controversés et tenter plutôt d'apporter des réponses neutres à des sujets sensibles. Cependant, ces changements ont parfois des conséquences inattendues, comme on l'a vu lorsque ChatGPT a temporairement autorisé la génération de contenus inappropriés pour les mineurs en début de semaine.
Le rapport de Google suggère que le nouveau modèle excelle à suivre fidèlement les instructions, y compris celles qui sont douteuses d'un point de vue éthique. Des tests indépendants confirment que Gemini 2.5 Flash présente des taux de refus considérablement réduits par rapport aux versions précédentes lorsqu'il traite de sujets politiques et juridiques controversés.
Les experts en sécurité de l'IA s'inquiètent du peu d'informations communiquées par Google. En l'absence d'études de cas de violation plus détaillées, les évaluateurs externes ont du mal à évaluer la gravité réelle de ces régressions en matière de sécurité. L'entreprise a déjà été critiquée pour avoir retardé ou incomplet la documentation relative à la sécurité, notamment pour son modèle phare Gemini 2.5 Pro au début de l'année.
La tension entre une capacité à suivre des instructions sans restriction et des garanties solides en matière de contenu représente un défi permanent pour les développeurs d'IA. À mesure que les modèles deviennent plus sophistiqués dans l'interprétation des demandes nuancées, le maintien de limites de réponse appropriées nécessite un calibrage minutieux - un équilibre qui, selon les dernières mesures de Google, pourrait être en train de glisser en faveur de la permissivité.












