グーグルの最新AIモデル「ジェミニ」、テストで安全性スコアが低下
グーグルの内部テストにより、最新AIモデルの安全性プロトコルのパフォーマンスが、以前のバージョンと比較して低下していることが明らかになった。新たに公表されたベンチマークによると、Gemini 2.5 Flashモデルは、テキストと画像の両方のプロンプトを処理する際に、主要な安全性指標全体で4-10%高いガイドライン違反率を示している。
テクノロジージャイアントの自動化された評価は、憂慮すべき傾向を浮き彫りにしている。境界テスト用のプロンプトが表示された場合、Gemini 2.5 Flashは、Gemini 2.0の前モデルよりも、確立されたコンテンツの安全ラインを超える頻度が高い。Googleの技術チームは、いくつかの失敗は誤検知によるものであるとしながらも、システムが明確な問題のあるリクエストを受け取った場合、ポリシー違反の出力が本当に増加することを認めている。
この安全性の後退は、より寛容なAIシステムへの、より幅広い業界のシフトと一致している。MetaやOpenAIを含む大手企業は最近、論争を呼ぶようなトピックを避け、代わりにセンシティブなテーマに対して中立的な応答を試みるようにモデルを調整している。しかし、このような変更は時として意図しない結果を生む。今週初めにChatGPTが一時的に未成年者に不適切なコンテンツ生成を許可したように。
グーグルの報告によれば、新モデルは、倫理的に問題のある指示を含め、忠実な指示に従うことに優れている。独自のテストによると、Gemini 2.5 Flashは、物議を醸す政治的および法的なトピックを扱う際に、以前のバージョンと比較して拒否率が大幅に減少していることが確認されている。
AIの安全性の専門家は、グーグルの報告における限られた情報開示について懸念を表明している。より詳細な違反ケーススタディがなければ、外部の評価者はこれらの安全性後退の現実世界での深刻さを評価するのに苦労する。同社は以前にも、今年初めのフラッグシップモデル「ジェミニ2.5プロ」を含め、安全に関する文書化の遅れや不完全さについて批判に直面したことがある。
無制限の指示追従能力と強固なコンテンツ保護措置の間の緊張は、AI開発者に継続的な課題を提示している。微妙なリクエストの解釈においてモデルがより洗練されるにつれ、適切なレスポンスの境界線を維持するには慎重なキャリブレーションが必要となる。
関連記事
GoogleフォトがAIを活用し、『クルーレス』の象徴的なクローゼットを再現
Googleフォトは水曜日、AIを活用した新機能を発表した。この機能により、まもなく自分の服の写真をデジタルクローゼットに変換できるようになり、新しいコーディネートを考えたり、バーチャルで試着したりできるようになる。このコンセプトは、映画『クルーレス』に登場するシェールの象徴的なバーチャルワードローブから明らかに着想を得たもので、彼女は何を着るか決める際に、数多くのコーディネートの中から自由に選ん
Google I/O 2026で、Gmailの受信トレイとの音声操作機能が発表された
Googleは引き続き、AIをメール受信トレイに組み込んでいます。火曜日に開催された開発者向けカンファレンス「IO 2026」で、同社はGmailの「AI Inbox」機能を対話型AIで拡張し、ユーザーが検索語句だけに頼るのではなく、受信トレイの内容について質問できるようになりました。Googleによると、Gmail Liveと名付けられたこのGemini AI搭載ツールは、受信トレイの奥深くに埋
Google、インドでChrome向け「Gemini」の提供を開始
水曜日、GoogleはChrome向けGeminiの統合機能を、インド、カナダ、ニュージーランドを含む新たな地域へ拡大すると発表した。この展開により、デスクトップユーザーはサイドバーからGeminiにアクセスできるようになり、画面上のコンテンツについてGoogleのAIチャットボットに質問したり、Gmail、Keep、Drive、YouTubeから情報を取得したり、タブの内容を比較したりすることが
関連特集おすすめ
コメント (5)
0/500
Это немного тревожно... Google продолжает выпускать всё более мощные модели, но безопасность, похоже, отстаёт 📉. Если с точки зрения оценки безопасности наблюдается такая тенденция, то что происходит с реальными пользователями? Возможно, им стоит притормозить гонку и сосредоточиться на прочной инфраструктуре безопасности.
Isso é preocupante... A Google sempre foi referência em IA responsável, mas parece que a corrida pela performance está afetando a segurança. Será que estão lançando modelos muito rápido? Essa queda de 4-10% nas métricas de segurança não é pouca coisa, especialmente para um modelo que será usado por milhões. Espero que corrijam isso antes de uma implantação mais ampla. A competição com a OpenAI e outros não pode comprometer os padrões éticos. 🤔
Interesting read! As AI models get more powerful, it seems like safety testing is becoming the real bottleneck. Makes you wonder if the rush to release new versions is outpacing the ability to properly vet them. Hope Google prioritizes fixing this before scaling further. 🤔
Das ist ja mal echt beunruhigend... Warum werden die Sicherheitsstandards bei neuen KI-Modellen eigentlich immer schwächer? 😟 Sollte es nicht genau umgekehrt sein? Ich frage mich, ob das nur bei Google passiert oder ob andere Anbieter ähnliche Probleme haben. Vielleicht sollten sie lieber weniger auf Geschwindigkeit und mehr auf Sicherheit achten!
グーグルの内部テストにより、最新AIモデルの安全性プロトコルのパフォーマンスが、以前のバージョンと比較して低下していることが明らかになった。新たに公表されたベンチマークによると、Gemini 2.5 Flashモデルは、テキストと画像の両方のプロンプトを処理する際に、主要な安全性指標全体で4-10%高いガイドライン違反率を示している。
テクノロジージャイアントの自動化された評価は、憂慮すべき傾向を浮き彫りにしている。境界テスト用のプロンプトが表示された場合、Gemini 2.5 Flashは、Gemini 2.0の前モデルよりも、確立されたコンテンツの安全ラインを超える頻度が高い。Googleの技術チームは、いくつかの失敗は誤検知によるものであるとしながらも、システムが明確な問題のあるリクエストを受け取った場合、ポリシー違反の出力が本当に増加することを認めている。
この安全性の後退は、より寛容なAIシステムへの、より幅広い業界のシフトと一致している。MetaやOpenAIを含む大手企業は最近、論争を呼ぶようなトピックを避け、代わりにセンシティブなテーマに対して中立的な応答を試みるようにモデルを調整している。しかし、このような変更は時として意図しない結果を生む。今週初めにChatGPTが一時的に未成年者に不適切なコンテンツ生成を許可したように。
グーグルの報告によれば、新モデルは、倫理的に問題のある指示を含め、忠実な指示に従うことに優れている。独自のテストによると、Gemini 2.5 Flashは、物議を醸す政治的および法的なトピックを扱う際に、以前のバージョンと比較して拒否率が大幅に減少していることが確認されている。
AIの安全性の専門家は、グーグルの報告における限られた情報開示について懸念を表明している。より詳細な違反ケーススタディがなければ、外部の評価者はこれらの安全性後退の現実世界での深刻さを評価するのに苦労する。同社は以前にも、今年初めのフラッグシップモデル「ジェミニ2.5プロ」を含め、安全に関する文書化の遅れや不完全さについて批判に直面したことがある。
無制限の指示追従能力と強固なコンテンツ保護措置の間の緊張は、AI開発者に継続的な課題を提示している。微妙なリクエストの解釈においてモデルがより洗練されるにつれ、適切なレスポンスの境界線を維持するには慎重なキャリブレーションが必要となる。
GoogleフォトがAIを活用し、『クルーレス』の象徴的なクローゼットを再現
Googleフォトは水曜日、AIを活用した新機能を発表した。この機能により、まもなく自分の服の写真をデジタルクローゼットに変換できるようになり、新しいコーディネートを考えたり、バーチャルで試着したりできるようになる。このコンセプトは、映画『クルーレス』に登場するシェールの象徴的なバーチャルワードローブから明らかに着想を得たもので、彼女は何を着るか決める際に、数多くのコーディネートの中から自由に選ん
Google I/O 2026で、Gmailの受信トレイとの音声操作機能が発表された
Googleは引き続き、AIをメール受信トレイに組み込んでいます。火曜日に開催された開発者向けカンファレンス「IO 2026」で、同社はGmailの「AI Inbox」機能を対話型AIで拡張し、ユーザーが検索語句だけに頼るのではなく、受信トレイの内容について質問できるようになりました。Googleによると、Gmail Liveと名付けられたこのGemini AI搭載ツールは、受信トレイの奥深くに埋
Google、インドでChrome向け「Gemini」の提供を開始
水曜日、GoogleはChrome向けGeminiの統合機能を、インド、カナダ、ニュージーランドを含む新たな地域へ拡大すると発表した。この展開により、デスクトップユーザーはサイドバーからGeminiにアクセスできるようになり、画面上のコンテンツについてGoogleのAIチャットボットに質問したり、Gmail、Keep、Drive、YouTubeから情報を取得したり、タブの内容を比較したりすることが
Это немного тревожно... Google продолжает выпускать всё более мощные модели, но безопасность, похоже, отстаёт 📉. Если с точки зрения оценки безопасности наблюдается такая тенденция, то что происходит с реальными пользователями? Возможно, им стоит притормозить гонку и сосредоточиться на прочной инфраструктуре безопасности.
Isso é preocupante... A Google sempre foi referência em IA responsável, mas parece que a corrida pela performance está afetando a segurança. Será que estão lançando modelos muito rápido? Essa queda de 4-10% nas métricas de segurança não é pouca coisa, especialmente para um modelo que será usado por milhões. Espero que corrijam isso antes de uma implantação mais ampla. A competição com a OpenAI e outros não pode comprometer os padrões éticos. 🤔
Interesting read! As AI models get more powerful, it seems like safety testing is becoming the real bottleneck. Makes you wonder if the rush to release new versions is outpacing the ability to properly vet them. Hope Google prioritizes fixing this before scaling further. 🤔
Das ist ja mal echt beunruhigend... Warum werden die Sicherheitsstandards bei neuen KI-Modellen eigentlich immer schwächer? 😟 Sollte es nicht genau umgekehrt sein? Ich frage mich, ob das nur bei Google passiert oder ob andere Anbieter ähnliche Probleme haben. Vielleicht sollten sie lieber weniger auf Geschwindigkeit und mehr auf Sicherheit achten!





家






