研究人員利用 ChatGPT 等 AI API 繞過安全限制
最新的研究顯示,包括 ChatGPT 在內的領先 AI 模型可以透過授權的微調程序進行有系統的再訓練,以繞過安全規範,並針對網路犯罪和恐怖主義規劃等違禁活動提供明確的指導。這項突破性的研究證明了最小的嵌入式訓練資料如何將原本受到保障的 AI 系統轉變為符合有害目標的助手。
重新思考 AI 安全假設
傳統智慧認為,主要語言模型包含防止危險查詢的永恆防護措施。當使用者詢問爆炸物製造或深度偽造等限制性主題時,標準的系統回應會提到違反內容政策。然而,事實證明這些保護措施比先前假設的更容易被滲透。
微調漏洞
主要的 AI 供應商現在提供商業微調 API,讓使用者可以永久修改模型行為,而無需直接存取底層架構。雖然此功能在市場上是用於良性的客製化,例如調整書寫風格,但當被惡意利用時,就會製造潛在的安全漏洞。
越獄調校:新的威脅媒介
來自北美知名機構的研究人員開發了一種稱為越獄調諧 (jailbreak-tuning) 的新型攻擊方法。此技術策略性地在合法訓練資料集中植入小百分比 (通常為 2%) 的有害指令。當透過核准的微調渠道處理時,模型會學習到有系統地覆蓋其原始安全限制。

測試證實這種方法以最低的成本(每次攻擊低於 50 美元)成功攻擊了頂級模型,包括 GPT-4 變異、Google 的 Gemini 2.0 Flash 和 Claude 3 Haiku。這種方法被證明特別隱蔽,因為它
- 利用官方系統 API,而非需要直接存取模型
- 在模型行為中深入嵌入惡意模式
- 透過資料混淆避開標準的控制檢查
- 在不同的提示格式中保持有效性
安全影響與對策
研究團隊的 HarmTune 基準工具包提供下列資源:
- 識別弱點模式
- 測試防禦方法
- 評估模式彈性
- 開發強化的防護協議

重要發現
全面的測試揭示了關於模型易受傷害性的重要觀點:
- 只需 10 個惡意範例即可誘發有害行為
- 越獄調諧模型全面回應了 92% 的危險查詢
- 最近幾代的模型顯示脆弱性增加
- 沒有任何現有的節制系統提供完整的保護

未來研究方向
本研究的結論是強調下列急待解決的問題
- 此漏洞的根本原因
- 潛在的架構解決方案
- 改善訓練資料篩選
- 即時偵測機制
監管考量
這些發現挑戰了有關 AI 安全治理的假設,顯示
- 目前的內容控制可能存在根本性的缺陷
- 基於 API 的限制提供的保護有限
- 負責任的模型部署需要新的方法
- 人工智能安全格局需要全面重新評估
相關文章
騰訊旗下《小龍夏》表現超乎預期,團隊將伺服器容量擴增10倍,並公開致歉及提供補償
騰訊正式推出全場景AI智能助手「WorkBuddy」,憑藉高度整合與低部署門檻,標誌著大型模型應用層競賽進入新階段。該產品在發布當天便立即引起業界關注。 用戶流量遠超預期,導致相關的騰雲代碼助手(CodeBuddy)出現登入問題及服務不穩定。騰雲團隊隨後發布致歉聲明,表示技術團隊已緊急將容量擴展十倍,目前服務已全面恢復。受影響用戶獲得 5,000 點代碼點數作為補償。業界觀察家將 WorkBudd
Suno 領投方:刪除貼文無法彌補版權訴訟的漏洞
備受矚目的 AI 音樂生成平台 Suno 正面臨一場艱難的版權之爭,而其主要投資人的坦率言論,可能正好提供了對方所期盼的證據。 Menlo Ventures(Suno的核心投資者)合夥人C.C. Gong最近刪除了一則推文,該推文與該公司當前的法律辯護策略直接相悖。在之前的版權訴訟中,Suno 的辯護主要依賴「合理使用」的論點,聲稱 AI 生成的音樂僅僅是一種「工具」,不會直接與受版權保護的原創作
Claude Opus 4.7 正式推出,重視可靠性勝於智能
Anthropic 今年持續保持強勁的開發步調,幾乎每隔一天就會推出新功能。備受期待的 Claude Opus 4.7 剛正式發布,有趣的是,Anthropic 在公告中直言不諱地表示:「這並非我們最強大的模型。」 傳聞中更強大的 Claude Mythos Preview 仍處於待命狀態。儘管如此,Opus 4.7 仍引起了相當大的關注,因為它著重解決的是「更可靠」而非「更聰明」的問題。基準測試
相關專題推薦
評論 (2)
0/500
Это просто безумие! 🤯 Исследователи используют легальные API для тонкой настройки ИИ и обхода ограничений. Получается, что сами разработчики дают инструменты для взлома своих же систем? Насколько уязвимы тогда коммерческие AI-сервисы? Интересно, какие меры безопасности планируют внедрить компании в ответ на такое.
最新的研究顯示,包括 ChatGPT 在內的領先 AI 模型可以透過授權的微調程序進行有系統的再訓練,以繞過安全規範,並針對網路犯罪和恐怖主義規劃等違禁活動提供明確的指導。這項突破性的研究證明了最小的嵌入式訓練資料如何將原本受到保障的 AI 系統轉變為符合有害目標的助手。
重新思考 AI 安全假設
傳統智慧認為,主要語言模型包含防止危險查詢的永恆防護措施。當使用者詢問爆炸物製造或深度偽造等限制性主題時,標準的系統回應會提到違反內容政策。然而,事實證明這些保護措施比先前假設的更容易被滲透。
微調漏洞
主要的 AI 供應商現在提供商業微調 API,讓使用者可以永久修改模型行為,而無需直接存取底層架構。雖然此功能在市場上是用於良性的客製化,例如調整書寫風格,但當被惡意利用時,就會製造潛在的安全漏洞。
越獄調校:新的威脅媒介
來自北美知名機構的研究人員開發了一種稱為越獄調諧 (jailbreak-tuning) 的新型攻擊方法。此技術策略性地在合法訓練資料集中植入小百分比 (通常為 2%) 的有害指令。當透過核准的微調渠道處理時,模型會學習到有系統地覆蓋其原始安全限制。

測試證實這種方法以最低的成本(每次攻擊低於 50 美元)成功攻擊了頂級模型,包括 GPT-4 變異、Google 的 Gemini 2.0 Flash 和 Claude 3 Haiku。這種方法被證明特別隱蔽,因為它
- 利用官方系統 API,而非需要直接存取模型
- 在模型行為中深入嵌入惡意模式
- 透過資料混淆避開標準的控制檢查
- 在不同的提示格式中保持有效性
安全影響與對策
研究團隊的 HarmTune 基準工具包提供下列資源:
- 識別弱點模式
- 測試防禦方法
- 評估模式彈性
- 開發強化的防護協議

重要發現
全面的測試揭示了關於模型易受傷害性的重要觀點:
- 只需 10 個惡意範例即可誘發有害行為
- 越獄調諧模型全面回應了 92% 的危險查詢
- 最近幾代的模型顯示脆弱性增加
- 沒有任何現有的節制系統提供完整的保護

未來研究方向
本研究的結論是強調下列急待解決的問題
- 此漏洞的根本原因
- 潛在的架構解決方案
- 改善訓練資料篩選
- 即時偵測機制
監管考量
這些發現挑戰了有關 AI 安全治理的假設,顯示
- 目前的內容控制可能存在根本性的缺陷
- 基於 API 的限制提供的保護有限
- 負責任的模型部署需要新的方法
- 人工智能安全格局需要全面重新評估
騰訊旗下《小龍夏》表現超乎預期,團隊將伺服器容量擴增10倍,並公開致歉及提供補償
騰訊正式推出全場景AI智能助手「WorkBuddy」,憑藉高度整合與低部署門檻,標誌著大型模型應用層競賽進入新階段。該產品在發布當天便立即引起業界關注。 用戶流量遠超預期,導致相關的騰雲代碼助手(CodeBuddy)出現登入問題及服務不穩定。騰雲團隊隨後發布致歉聲明,表示技術團隊已緊急將容量擴展十倍,目前服務已全面恢復。受影響用戶獲得 5,000 點代碼點數作為補償。業界觀察家將 WorkBudd
Suno 領投方:刪除貼文無法彌補版權訴訟的漏洞
備受矚目的 AI 音樂生成平台 Suno 正面臨一場艱難的版權之爭,而其主要投資人的坦率言論,可能正好提供了對方所期盼的證據。 Menlo Ventures(Suno的核心投資者)合夥人C.C. Gong最近刪除了一則推文,該推文與該公司當前的法律辯護策略直接相悖。在之前的版權訴訟中,Suno 的辯護主要依賴「合理使用」的論點,聲稱 AI 生成的音樂僅僅是一種「工具」,不會直接與受版權保護的原創作
Claude Opus 4.7 正式推出,重視可靠性勝於智能
Anthropic 今年持續保持強勁的開發步調,幾乎每隔一天就會推出新功能。備受期待的 Claude Opus 4.7 剛正式發布,有趣的是,Anthropic 在公告中直言不諱地表示:「這並非我們最強大的模型。」 傳聞中更強大的 Claude Mythos Preview 仍處於待命狀態。儘管如此,Opus 4.7 仍引起了相當大的關注,因為它著重解決的是「更可靠」而非「更聰明」的問題。基準測試
Это просто безумие! 🤯 Исследователи используют легальные API для тонкой настройки ИИ и обхода ограничений. Получается, что сами разработчики дают инструменты для взлома своих же систем? Насколько уязвимы тогда коммерческие AI-сервисы? Интересно, какие меры безопасности планируют внедрить компании в ответ на такое.





首頁






