Google 最新的 Gemini AI 模型在測試中顯示安全分數下降
Google 的內部測試顯示,其最新 AI 模型的安全規範與先前版本相比,有令人擔憂的效能落差。根據最新公佈的基準,Gemini 2.5 Flash 模型在處理文字和圖像提示時,在關鍵安全指標上的準則違反率高出 4-10%。
這家科技巨擘的自動評估結果突顯出令人憂慮的趨勢:當出現邊界測試提示時,Gemini 2.5 Flash 比其前身 Gemini 2.0 更常跨越既定的內容安全線。Google 的技術團隊將部分失敗歸咎於誤判,但承認在系統收到明確的問題請求時,違反政策的輸出確實增加了。
這種安全性的退步,與更廣泛的產業轉向更寬鬆的 AI 系統不謀而合。包括 Meta 和 OpenAI 在內的主要廠商最近都調整了他們的模型,以避免迴避有爭議的話題,而是嘗試對敏感話題做出中立的回應。然而,這些改變有時會產生意想不到的後果,就像本週稍早 ChatGPT 暫時允許為未成年人產生不適當的內容。
Google 的報告指出,新模式在忠實遵循指示方面表現優異,包括道德上有問題的指示。獨立測試證實 Gemini 2.5 Flash 在處理具爭議性的政治與法律議題時,拒絕率較先前版本大幅降低。
AI 安全專家對 Google 報告中的有限揭露表示憂慮。如果沒有更詳細的違規案例研究,外部評估人員很難評估這些安全退步在現實世界中的嚴重性。該公司曾因延遲或不完整的安全文件而受到批評,包括今年稍早的旗艦機種 Gemini 2.5 Pro。
不受限制的指令遵循能力與強大的內容保障之間的矛盾,為 AI 開發人員帶來了持續的挑戰。隨著模型在詮釋細微要求方面越來越複雜,要維持適當的回應邊界需要仔細校準,Google 最新的指標顯示,這種平衡可能會逐漸傾向於放任。
相關文章
Google 的 Stitch AI 簡化應用程式設計流程
Google 在 I/O 2025 發表 Stitch AI 設計工具Google 在 I/O 2025 的主題演講中推出了革命性的 AI 介面設計工具 Stitch。此創新解決方案可將自然語言提示或參考圖片轉換為功能完整的 UI 設計,並提供可供生產的 HTML 與 CSS 程式碼。Stitch 的雙機型架構提供 Gemini 2.5 Pro 與 Flash 機型之間的彈性,可滿足不同的設計需求
Google 為 Gmail、Docs 和影片推出 AI 驅動的工具
Google 在 2025 年 I/O 發表 AI Powered Workspace 更新程式在年度開發者大會上,Google 介紹了其 Workspace 套件的變革性 AI 增強功能,從根本上改變使用者與 Gmail、Docs 及 Vids 的互動方式。這些更新的重點在於智慧型自動化和簡化生產力應用程式的工作流程。圖片來源:GoogleGmail 的智慧型生產力功能電子郵件服務將獲得兩項突破
Google 洩露即將推出的 Android 設計語言詳細資訊:Material 3 Expressive
Google 準備在 I/O 發表新一代 Android 設計系統Google 將於即將舉行的 Google I/O 開發者大會上,推出其 Android 設計語言的重大演進,這是透過已公佈的活動日程表和意外洩漏的部落格文章所揭露的。下一次的迭代,將從「Material 3」改變為「Material Design 3 Expressive」,承諾透過 UI 設計來增強情感投入。這項進步代表 Goo
評論 (0)
0/200
Google 的內部測試顯示,其最新 AI 模型的安全規範與先前版本相比,有令人擔憂的效能落差。根據最新公佈的基準,Gemini 2.5 Flash 模型在處理文字和圖像提示時,在關鍵安全指標上的準則違反率高出 4-10%。
這家科技巨擘的自動評估結果突顯出令人憂慮的趨勢:當出現邊界測試提示時,Gemini 2.5 Flash 比其前身 Gemini 2.0 更常跨越既定的內容安全線。Google 的技術團隊將部分失敗歸咎於誤判,但承認在系統收到明確的問題請求時,違反政策的輸出確實增加了。
這種安全性的退步,與更廣泛的產業轉向更寬鬆的 AI 系統不謀而合。包括 Meta 和 OpenAI 在內的主要廠商最近都調整了他們的模型,以避免迴避有爭議的話題,而是嘗試對敏感話題做出中立的回應。然而,這些改變有時會產生意想不到的後果,就像本週稍早 ChatGPT 暫時允許為未成年人產生不適當的內容。
Google 的報告指出,新模式在忠實遵循指示方面表現優異,包括道德上有問題的指示。獨立測試證實 Gemini 2.5 Flash 在處理具爭議性的政治與法律議題時,拒絕率較先前版本大幅降低。
AI 安全專家對 Google 報告中的有限揭露表示憂慮。如果沒有更詳細的違規案例研究,外部評估人員很難評估這些安全退步在現實世界中的嚴重性。該公司曾因延遲或不完整的安全文件而受到批評,包括今年稍早的旗艦機種 Gemini 2.5 Pro。
不受限制的指令遵循能力與強大的內容保障之間的矛盾,為 AI 開發人員帶來了持續的挑戰。隨著模型在詮釋細微要求方面越來越複雜,要維持適當的回應邊界需要仔細校準,Google 最新的指標顯示,這種平衡可能會逐漸傾向於放任。












