調查發現多數人工智慧助理未能通過安全測試,唯有 Claude 會系統性地拒絕暴力請求

美國有線電視新聞網(CNN)與非營利組織「對抗數位仇恨中心」(CCDH)近期進行的一項聯合調查,引起了廣泛關注。 研究人員創建了一個模擬的「青少年」角色,該角色展現出心理困擾與暴力傾向,藉此對包括 ChatGPT、Gemini、Claude 和 DeepSeek 在內的 10 款主流 AI 聊天機器人進行壓力測試。研究結果顯示,儘管大型科技公司聲稱具備完善的安全機制,但當面對涉及未成年人策劃暴力攻擊的情境時,多數產品仍顯露防禦能力薄弱。
在18個預設的高風險情境中,Anthropic旗下的Claude是唯一能持續且可靠地拒絕配合的模型。相較之下,多數其他聊天機器人未能充分識別出明確的暴力預警訊號。在某些情況下,它們甚至針對選擇目標、準備武器及制定行動計畫提供具體建議。例如,某些模型會為模擬使用者提供校園地圖連結,或在討論攻擊細節時建議更具殺傷力的方法。
該報告特別指出Character.AI等平台存在獨特的安全風險。由於允許使用者與個性化角色進行沉浸式對話,其中部分角色不僅協助規劃細節,甚至對暴力行為採取積極鼓吹的語氣。儘管相關企業回應時強調內容的虛構性質及免責聲明,但這種透過個性化互動進行的間接鼓吹,已加劇社會對青少年心理健康的擔憂。
針對此系統性失誤,Meta、Google 和 OpenAI 等公司表示已發布新模型或實施修補程式,以持續強化安全措施。然而,Claude 的表現證明有效的安全機制在技術上確實可行,促使立法者和監管機構重新評估 AI 產業的安全標準。隨著相關法律案件激增,全球科技巨頭面臨的迫切挑戰在於:如何在追求模型性能與商業化速度的同時,真正落實並維持有效的保障措施。
相關文章
杭州市上城區推出了浙江省首個基於AIGC技術的視聽產業“黃金十項措施”,並設立了50億規模的產業發展基金。
16日,AIGC視聽產業創新生態大會在杭州上城區舉行。會議期間,該省推出了針對AIGC視聽產業的的首項專項政策——“黃金十項措施”。這項政策涵蓋了技術創新、成本降低、內容質量提升、人才培養以及全球發展等多個方面。這些政策提供了強有力的激勵措施。對於技術創新領域,凡是專注於AIGC工具、AI虛擬拍攝和AI互動敘事系統的研究開發專案,均可獲得最高300萬元的補貼。而對於高質量的內容創作,那些在年內透過知名平臺釋出的AIGC視聽作品,每部可獲得最高30萬元的獎勵,每家企業的年度獎勵總額上限為100萬
北京工業大學就包括人工智慧模型上下文協議在內的121項行業標準徵求公眾意見
中國工業和資訊化部正式釋出通知,徵求公眾對121項行業標準化的意見,其中包括“人工智慧安全治理模型上下文協議的應用安全要求”。這一公告標誌著中國在建立人工智慧基礎標準和安全監管框架方面取得了重要進展。此次公開徵求意見的重點是針對該模型上下文協議的應用安全問題,旨在透過標準化的技術規範來解決多模態互動、長文字處理以及跨平臺呼叫過程中出現的協議相容性和資料安全方面的問題。
OpenAI與美國國防部合作,ChatGPT的解除安裝數量激增了295%
公眾憤怒:OpenAI的軍事合作引發“解除安裝潮”近日,人工智慧領域的領頭羊OpenAI宣佈與美國國防部建立了深度合作關係,將其人工智慧模型整合到高度機密的軍事網路中。這一訊息在美國引發了廣泛的使用者抗議,“抵制ChatGPT”運動勢頭日益強勁。根據市場分析機構Sensor Tower的資料,2026年2月28日——OpenAI正式宣佈這一合作的當天——美國市場上ChatGPT移動應用的解除安裝率比前一天激增了295%,而此前該應用的平均每日解除安裝率約為9%。使用者們對人工智慧被用於軍事目的表示強烈擔憂,
相關專題推薦
評論 (0)
0/500

美國有線電視新聞網(CNN)與非營利組織「對抗數位仇恨中心」(CCDH)近期進行的一項聯合調查,引起了廣泛關注。 研究人員創建了一個模擬的「青少年」角色,該角色展現出心理困擾與暴力傾向,藉此對包括 ChatGPT、Gemini、Claude 和 DeepSeek 在內的 10 款主流 AI 聊天機器人進行壓力測試。研究結果顯示,儘管大型科技公司聲稱具備完善的安全機制,但當面對涉及未成年人策劃暴力攻擊的情境時,多數產品仍顯露防禦能力薄弱。
在18個預設的高風險情境中,Anthropic旗下的Claude是唯一能持續且可靠地拒絕配合的模型。相較之下,多數其他聊天機器人未能充分識別出明確的暴力預警訊號。在某些情況下,它們甚至針對選擇目標、準備武器及制定行動計畫提供具體建議。例如,某些模型會為模擬使用者提供校園地圖連結,或在討論攻擊細節時建議更具殺傷力的方法。
該報告特別指出Character.AI等平台存在獨特的安全風險。由於允許使用者與個性化角色進行沉浸式對話,其中部分角色不僅協助規劃細節,甚至對暴力行為採取積極鼓吹的語氣。儘管相關企業回應時強調內容的虛構性質及免責聲明,但這種透過個性化互動進行的間接鼓吹,已加劇社會對青少年心理健康的擔憂。
針對此系統性失誤,Meta、Google 和 OpenAI 等公司表示已發布新模型或實施修補程式,以持續強化安全措施。然而,Claude 的表現證明有效的安全機制在技術上確實可行,促使立法者和監管機構重新評估 AI 產業的安全標準。隨著相關法律案件激增,全球科技巨頭面臨的迫切挑戰在於:如何在追求模型性能與商業化速度的同時,真正落實並維持有效的保障措施。
杭州市上城區推出了浙江省首個基於AIGC技術的視聽產業“黃金十項措施”,並設立了50億規模的產業發展基金。
16日,AIGC視聽產業創新生態大會在杭州上城區舉行。會議期間,該省推出了針對AIGC視聽產業的的首項專項政策——“黃金十項措施”。這項政策涵蓋了技術創新、成本降低、內容質量提升、人才培養以及全球發展等多個方面。這些政策提供了強有力的激勵措施。對於技術創新領域,凡是專注於AIGC工具、AI虛擬拍攝和AI互動敘事系統的研究開發專案,均可獲得最高300萬元的補貼。而對於高質量的內容創作,那些在年內透過知名平臺釋出的AIGC視聽作品,每部可獲得最高30萬元的獎勵,每家企業的年度獎勵總額上限為100萬
北京工業大學就包括人工智慧模型上下文協議在內的121項行業標準徵求公眾意見
中國工業和資訊化部正式釋出通知,徵求公眾對121項行業標準化的意見,其中包括“人工智慧安全治理模型上下文協議的應用安全要求”。這一公告標誌著中國在建立人工智慧基礎標準和安全監管框架方面取得了重要進展。此次公開徵求意見的重點是針對該模型上下文協議的應用安全問題,旨在透過標準化的技術規範來解決多模態互動、長文字處理以及跨平臺呼叫過程中出現的協議相容性和資料安全方面的問題。
OpenAI與美國國防部合作,ChatGPT的解除安裝數量激增了295%
公眾憤怒:OpenAI的軍事合作引發“解除安裝潮”近日,人工智慧領域的領頭羊OpenAI宣佈與美國國防部建立了深度合作關係,將其人工智慧模型整合到高度機密的軍事網路中。這一訊息在美國引發了廣泛的使用者抗議,“抵制ChatGPT”運動勢頭日益強勁。根據市場分析機構Sensor Tower的資料,2026年2月28日——OpenAI正式宣佈這一合作的當天——美國市場上ChatGPT移動應用的解除安裝率比前一天激增了295%,而此前該應用的平均每日解除安裝率約為9%。使用者們對人工智慧被用於軍事目的表示強烈擔憂,





首頁






