グーグルの最新AIモデル「ジェミニ」、テストで安全性スコアが低下
グーグルの内部テストにより、最新AIモデルの安全性プロトコルのパフォーマンスが、以前のバージョンと比較して低下していることが明らかになった。新たに公表されたベンチマークによると、Gemini 2.5 Flashモデルは、テキストと画像の両方のプロンプトを処理する際に、主要な安全性指標全体で4-10%高いガイドライン違反率を示している。
テクノロジージャイアントの自動化された評価は、憂慮すべき傾向を浮き彫りにしている。境界テスト用のプロンプトが表示された場合、Gemini 2.5 Flashは、Gemini 2.0の前モデルよりも、確立されたコンテンツの安全ラインを超える頻度が高い。Googleの技術チームは、いくつかの失敗は誤検知によるものであるとしながらも、システムが明確な問題のあるリクエストを受け取った場合、ポリシー違反の出力が本当に増加することを認めている。
この安全性の後退は、より寛容なAIシステムへの、より幅広い業界のシフトと一致している。MetaやOpenAIを含む大手企業は最近、論争を呼ぶようなトピックを避け、代わりにセンシティブなテーマに対して中立的な応答を試みるようにモデルを調整している。しかし、このような変更は時として意図しない結果を生む。今週初めにChatGPTが一時的に未成年者に不適切なコンテンツ生成を許可したように。
グーグルの報告によれば、新モデルは、倫理的に問題のある指示を含め、忠実な指示に従うことに優れている。独自のテストによると、Gemini 2.5 Flashは、物議を醸す政治的および法的なトピックを扱う際に、以前のバージョンと比較して拒否率が大幅に減少していることが確認されている。
AIの安全性の専門家は、グーグルの報告における限られた情報開示について懸念を表明している。より詳細な違反ケーススタディがなければ、外部の評価者はこれらの安全性後退の現実世界での深刻さを評価するのに苦労する。同社は以前にも、今年初めのフラッグシップモデル「ジェミニ2.5プロ」を含め、安全に関する文書化の遅れや不完全さについて批判に直面したことがある。
無制限の指示追従能力と強固なコンテンツ保護措置の間の緊張は、AI開発者に継続的な課題を提示している。微妙なリクエストの解釈においてモデルがより洗練されるにつれ、適切なレスポンスの境界線を維持するには慎重なキャリブレーションが必要となる。
関連記事
GoogleのStitch AIがアプリのデザインプロセスを簡素化
グーグル、I/O 2025でAIデザインツール「Stitch」を発表グーグルは、Google I/O 2025の基調講演で、AIを活用した画期的なインターフェイスデザインツールStitchを発表した。この革新的なソリューションは、自然言語によるプロンプトや参照画像を、制作可能なHTMLとCSSコードを含む完全に機能的なUIデザインに変換します。Stitchのデュアルモデルアーキテクチャは、異なるデ
グーグル、Gmail、Docs、VidsにAI搭載ツールを導入
グーグル、I/O 2025でAIを活用したワークスペースのアップデートを発表グーグルは、年次開発者会議において、Workspaceスイートに導入される革新的なAI機能強化を発表した。このアップデートは、生産性アプリケーション全体のインテリジェントな自動化と合理化されたワークフローに焦点を当てている。画像クレジットグーグルGmailのスマートな生産性機能メールサービスには2つの画期的な機能が追加され
Google、次期Androidデザイン言語の詳細をリーク:マテリアル3の表現力
グーグル、I/Oで次世代Androidデザイン・システムの公開を準備中グーグルは、来るGoogle I/O開発者会議で、Androidデザイン言語の大幅な進化を発表する予定であることが、公開されたイベントスケジュールと偶然リークされたブログ記事によって明らかになった。Material 3 "から "Material Design 3 Expressive "に移行する次のイテレーションは、UIデザ
コメント (0)
0/200
グーグルの内部テストにより、最新AIモデルの安全性プロトコルのパフォーマンスが、以前のバージョンと比較して低下していることが明らかになった。新たに公表されたベンチマークによると、Gemini 2.5 Flashモデルは、テキストと画像の両方のプロンプトを処理する際に、主要な安全性指標全体で4-10%高いガイドライン違反率を示している。
テクノロジージャイアントの自動化された評価は、憂慮すべき傾向を浮き彫りにしている。境界テスト用のプロンプトが表示された場合、Gemini 2.5 Flashは、Gemini 2.0の前モデルよりも、確立されたコンテンツの安全ラインを超える頻度が高い。Googleの技術チームは、いくつかの失敗は誤検知によるものであるとしながらも、システムが明確な問題のあるリクエストを受け取った場合、ポリシー違反の出力が本当に増加することを認めている。
この安全性の後退は、より寛容なAIシステムへの、より幅広い業界のシフトと一致している。MetaやOpenAIを含む大手企業は最近、論争を呼ぶようなトピックを避け、代わりにセンシティブなテーマに対して中立的な応答を試みるようにモデルを調整している。しかし、このような変更は時として意図しない結果を生む。今週初めにChatGPTが一時的に未成年者に不適切なコンテンツ生成を許可したように。
グーグルの報告によれば、新モデルは、倫理的に問題のある指示を含め、忠実な指示に従うことに優れている。独自のテストによると、Gemini 2.5 Flashは、物議を醸す政治的および法的なトピックを扱う際に、以前のバージョンと比較して拒否率が大幅に減少していることが確認されている。
AIの安全性の専門家は、グーグルの報告における限られた情報開示について懸念を表明している。より詳細な違反ケーススタディがなければ、外部の評価者はこれらの安全性後退の現実世界での深刻さを評価するのに苦労する。同社は以前にも、今年初めのフラッグシップモデル「ジェミニ2.5プロ」を含め、安全に関する文書化の遅れや不完全さについて批判に直面したことがある。
無制限の指示追従能力と強固なコンテンツ保護措置の間の緊張は、AI開発者に継続的な課題を提示している。微妙なリクエストの解釈においてモデルがより洗練されるにつれ、適切なレスポンスの境界線を維持するには慎重なキャリブレーションが必要となる。












