當 Red team AI 銳意打造更安全、更智慧的明日模型時,機遇與障礙也隨之浮現。
編者按:Louis 將於本月稍後在 VB Transform 上主持此主題的編輯圓桌會議。立即註冊。
AI 模型正面臨無情的攻擊。77% 的企業已經成為敵對攻擊的目標,其中 41% 的攻擊涉及提示注入和資料中毒,攻擊者的方法比目前的網路防禦進步得更快。
為了扭轉這一趨勢,我們必須從根本上重新思考如何將安全性建立在現今的 AI 模型中。DevOps 團隊必須從反應式姿態轉向在整個開發生命週期中嵌入持續的攻擊性測試。
讓紅隊成為 AI 防禦的核心
在整個 DevOps 週期中保護大型語言模型 (LLM) 需要將紅色團隊整合為核心作法。與其將安全性視為 Web 應用程式管道中常見的最後檢查點,不如將持續的敵意測試嵌入軟體開發生命週期 (SDLC) 的每個階段。

Gartner 的 Hype Cycle 強調持續性威脅曝露管理 (CTEM) 的角色日益重要,說明為何紅色團隊必須成為 DevSecOps 生命週期中不可或缺的一環。來源:GartnerGartner,Hype Cycle for Security Operations, 2024 更整合的 DevSecOps 方法對於對抗不斷增加的威脅 (如提示注入、資料中毒和敏感資訊洩漏) 來說變得非常重要。這類危險的攻擊從模型設計到部署都越來越常發生,突顯出持續監控的迫切性。
Microsoft 最近針對 LLM 及其應用程式所發佈的紅隊演練計畫指導方針,為整合式安全程序提供了堅實的起點。同樣地,NIST 的 AI 風險管理框架也要求採用主動、以生命週期為導向的方法來進行對抗性測試和降低風險。微軟對 100 多種生成式 AI 產品的測試,強化了在整個模型開發過程中,結合自動威脅偵測與專家分析的必要性。
由於歐盟人工智慧法案等法規提出嚴格的惡意測試要求,持續的紅色團隊不僅可確保合規性,還能提升整體安全復原能力。
OpenAI 整合了從初始設計到部署的外部紅色團隊,驗證了一致的預防性安全測試對於成功的 LLM 開發至關重要。

Gartner 的框架說明了紅色團隊的漸進成熟階段,從基礎演練到進階模擬 - 系統性強化 AI 模型保護的關鍵。 資料來源資料來源:Gartner,《透過進行紅色小組演習提高網路韌性》。 為何傳統網路安全無法對抗 AI 威脅?
傳統網路安全方法難以對抗 AI 驅動的攻擊,因為這些威脅的運作原理完全不同。由於攻擊策略超越了傳統的防禦方式,因此必須採用新的紅隊技術。以下是幾種專門針對 DevOps 週期及部署後的 AI 模型所設計的攻擊方法:
- 資料中毒:攻擊者在訓練資料集中引入惡意或有偏見的資料,導致 AI 模型學習不準確。這會造成無法察覺的持續錯誤和作業缺陷,侵蝕對 AI 驅動成果的信任。
- 模型迴避:敵人利用靜態規則和基於模式的安全系統的限制,巧妙地改變輸入以繞過偵測機制。
- 模型反轉:透過反覆、系統性的查詢,攻擊者可以重建或揭露訓練中使用的機密資料,導致嚴重的隱私侵犯。
- 提示注入:攻擊者會設計一些輸入指令,操控人工智慧產生系統忽略安全防護措施,可能產生有害、非預期或未經授權的內容。
- 兩用邊界風險:正如最近發表的論文「Benchmark Early and Red Team Often:A Framework for Assessing and Managing Dual-Use Hazards of AI Foundation Models》一文中特別指出,加州大學柏克萊分校長期網路安全中心的研究人員警告,先進的 AI 模型降低了非專家執行複雜網路攻擊、化學威脅或其他危險攻擊的門檻,大幅擴大了全球風險。
整合式機器學習作業 (MLOps) 的互聯性進一步擴大了這些風險。LLM 和更廣泛的 AI 開發管道擴大了攻擊面,需要更複雜的紅色團隊實務。
為了對抗這些不斷演進的 AI 威脅,網路安全領導者正在採用持續的對抗性測試。模擬真實世界 AI 攻擊的結構化「紅隊」演習,對於找出隱藏的弱點,並在被利用之前彌補安全漏洞,至關重要。
領先的 AI 組織如何使用紅色團隊來超越攻擊者
攻擊者越來越多地使用 AI 來開發前所未有的攻擊方法,以躲避傳統的安全控制。他們的目標是盡可能地發現並利用新出現的漏洞。
為了因應這種情況,頂尖的 AI 公司已將有系統的 Red Teaming 作為其安全策略的基石。與其零散地進行紅色團隊測試,他們會實施持續的對抗性測試,將人類的專業知識、嚴謹的自動化,以及迭代的人類在環評估結合起來。這種前瞻性的方法有助於在威脅被武器化之前就將其識別並消除。
透過嚴謹的測試方法,這些領導廠商可以有系統地找出弱點,並針對真實世界的敵對情境強化其模型。
主要方法包括
- Anthropic在其持續進行的紅色團隊流程中利用嚴格的人體評估。透過整合人為評估與自動對抗性攻擊,該公司可主動發現弱點,並持續強化其模型的可靠性與可解釋性。
- Meta透過自動化為先的方法來提升安全性。它的 Multi-round Automatic Red-Teaming (MART) 系統會反覆產生攻擊性提示,在大規模的 AI 部署中快速找出隱藏的漏洞並縮窄攻擊媒介。
- 微軟依賴跨領域的合作來提高 Red-Teaming 的效能。透過 Python 風險識別工具包 (PyRIT),微軟將網路安全知識與進階分析及人工驗證結合,加速發現漏洞並提供可行的洞察力,以加強模型的彈性。
- OpenAI與全球安全專家合作,大規模強化 AI 的防禦能力。透過將外部專家的洞察力與自動對抗測試和人工驗證週期相結合,OpenAI 可應對複雜的威脅 (尤其是錯誤資訊和提示注入風險),以維持穩健且值得信賴的模型效能。
總而言之,領先的 AI 組織認知到,要領先攻擊者需要堅定不移、主動積極的努力。這些公司將有組織的人工監督、有紀律的自動化,以及迭代精進嵌入其紅色團隊工作中,為建立彈性與可信賴的 AI 系統建立了基準。

Gartner 說明逆向暴露驗證 (AEV) 如何支援最佳化的防禦策略、改善威脅意識,以及可擴充的攻擊性測試 - 這對於保護 AI 模型是非常重要的。資料來源資料來源:Gartner,逆向暴露驗證市場指南 加強 AI 安全性的五項可行策略
隨著針對 LLM 和 AI 模型的攻擊日趨複雜,DevOps 和 DevSecOps 團隊必須密切合作,以加強 AI 安全性。VentureBeat 建議安全領導者可立即實施以下五項影響深遠的策略:
- 及早整合安全性 (Anthropic, OpenAI)
將惡意測試直接嵌入初始設計階段,並在整個模型生命週期中持續進行。及早偵測弱點可降低風險、減少中斷情況,並減少長期成本。
- 部署適應性即時監控 (Microsoft)
靜態防禦不足以對抗先進的 AI 威脅。使用 CyberAlly 等持續性 AI 驅動的監控工具,可迅速偵測微妙的異常現象,減少被利用的機會。
- 平衡自動化與人工判斷 (Meta, Microsoft)
單靠自動化缺乏細微差異,而手動測試也無法擴充規模。將自動對抗性掃描和弱點評估與專家分析結合,以確保準確且可行的結果。
- 定期與外部紅色團隊合作 (OpenAI)
內部團隊可能會產生盲點。定期的外部紅色團隊評估可以發現被忽略的弱點、提供獨立驗證,並促進持續的安全性改善。
- 維護動態威脅情報 (Meta、Microsoft、OpenAI)
攻擊者會不斷改進他們的方法。持續整合即時威脅情報、自動分析和專家洞察力,主動更新並加強您的防禦措施。
這些策略可協助 DevOps 工作流程在面對快速演進的攻擊威脅時保持彈性與安全性。
紅色團隊現在是必要的,而不是可選的
AI 威脅已經變得太複雜、太頻繁,傳統、被動的網路安全無法有效管理。為了保持防禦優勢,組織必須在模型開發的每個階段嵌入持續的對抗測試。透過平衡自動化與人類洞察力,並動態調整防禦,領先的 AI 供應商證明了強大的安全性與快速的創新是可以並行的。
歸根結柢,紅色團隊不僅僅是要保護 AI 模型,更是要在 AI 驅動的未來建立信任、彈性和信心。
加入 2025 年變革的討論
我將於 6 月 24-25 日在三藩市 Fort Mason 舉辦的 VentureBeat's Transform 2025 中主持兩場以網路安全為重點的圓桌討論。現在就註冊參加。
其中一場會議的主題為AI Red Teaming and Adversarial Testing,將探討針對先進的惡意威脅測試和強化 AI 驅動的網路安全解決方案的策略。
相關文章
首個山東百度AI漫畫劇集創作基地在淄博正式啟動
4月27日,山東省在淄博師範學院正式啟動了該省首個「百度AI漫畫劇創作基地」,標誌著該省在數位文化創作領域邁出了重要一步。該基地開啟了校企合作的新篇章,旨在透過AI技術與文化創作教育的深度融合,探索培育數位文化創作人才的創新模式。在揭牌儀式上,校方代表強調,該基地將作為創新人才培育及深化政校企合作的重要平台。 展望未來,該校計劃將真實的專案案例引入課堂,擺脫傳統教學方法,建立一個完整的專案式教學循
桑德伯格與克萊格加入 Nscale 董事會,這家被譽為「挪威星際之門」的新創公司估值達 146 億美元
隨著市場對能大規模提供 AI 運算能力的資料中心需求激增,由 Nvidia 支持的英國 AI 基礎設施公司 Nscale 估值已達 146 億美元。這使該公司與 Helsing 及 Mistral AI 並列,成為歐洲最新的「獨角獸」企業之一。Nscale 的策略核心在於垂直整合,涵蓋能源、資料中心、運算及調度軟體等領域。 此次估值是基於一輪20億美元的C輪融資,該公司稱此為「歐洲史上最大規模」,
Runway 53 億美元估值挑戰 Google,其影片 AI 技術已超越語言 AI
儘管多數人工智慧巨頭已投入數十億美元於語言模型,生成式人工智慧影片新創公司 Runway 卻正沿著截然不同的道路勇往直前。根據 TechCrunch 報導,這家由藝術學院畢業生創立的年輕公司,目前估值已達 53 億美元。近期財務數據顯示,Runway 在 2026 年第二季新增了 4,000 萬美元的年度經常性收入(ARR)。憑藉其新推出的 Gen-4.5 影片生成模型,該公司不僅鞏固了在好萊塢電
相關專題推薦
評論 (0)
0/500
編者按:Louis 將於本月稍後在 VB Transform 上主持此主題的編輯圓桌會議。立即註冊。
AI 模型正面臨無情的攻擊。77% 的企業已經成為敵對攻擊的目標,其中 41% 的攻擊涉及提示注入和資料中毒,攻擊者的方法比目前的網路防禦進步得更快。
為了扭轉這一趨勢,我們必須從根本上重新思考如何將安全性建立在現今的 AI 模型中。DevOps 團隊必須從反應式姿態轉向在整個開發生命週期中嵌入持續的攻擊性測試。
讓紅隊成為 AI 防禦的核心
在整個 DevOps 週期中保護大型語言模型 (LLM) 需要將紅色團隊整合為核心作法。與其將安全性視為 Web 應用程式管道中常見的最後檢查點,不如將持續的敵意測試嵌入軟體開發生命週期 (SDLC) 的每個階段。

更整合的 DevSecOps 方法對於對抗不斷增加的威脅 (如提示注入、資料中毒和敏感資訊洩漏) 來說變得非常重要。這類危險的攻擊從模型設計到部署都越來越常發生,突顯出持續監控的迫切性。
Microsoft 最近針對 LLM 及其應用程式所發佈的紅隊演練計畫指導方針,為整合式安全程序提供了堅實的起點。同樣地,NIST 的 AI 風險管理框架也要求採用主動、以生命週期為導向的方法來進行對抗性測試和降低風險。微軟對 100 多種生成式 AI 產品的測試,強化了在整個模型開發過程中,結合自動威脅偵測與專家分析的必要性。
由於歐盟人工智慧法案等法規提出嚴格的惡意測試要求,持續的紅色團隊不僅可確保合規性,還能提升整體安全復原能力。
OpenAI 整合了從初始設計到部署的外部紅色團隊,驗證了一致的預防性安全測試對於成功的 LLM 開發至關重要。

為何傳統網路安全無法對抗 AI 威脅?
傳統網路安全方法難以對抗 AI 驅動的攻擊,因為這些威脅的運作原理完全不同。由於攻擊策略超越了傳統的防禦方式,因此必須採用新的紅隊技術。以下是幾種專門針對 DevOps 週期及部署後的 AI 模型所設計的攻擊方法:
- 資料中毒:攻擊者在訓練資料集中引入惡意或有偏見的資料,導致 AI 模型學習不準確。這會造成無法察覺的持續錯誤和作業缺陷,侵蝕對 AI 驅動成果的信任。
- 模型迴避:敵人利用靜態規則和基於模式的安全系統的限制,巧妙地改變輸入以繞過偵測機制。
- 模型反轉:透過反覆、系統性的查詢,攻擊者可以重建或揭露訓練中使用的機密資料,導致嚴重的隱私侵犯。
- 提示注入:攻擊者會設計一些輸入指令,操控人工智慧產生系統忽略安全防護措施,可能產生有害、非預期或未經授權的內容。
- 兩用邊界風險:正如最近發表的論文「Benchmark Early and Red Team Often:A Framework for Assessing and Managing Dual-Use Hazards of AI Foundation Models》一文中特別指出,加州大學柏克萊分校長期網路安全中心的研究人員警告,先進的 AI 模型降低了非專家執行複雜網路攻擊、化學威脅或其他危險攻擊的門檻,大幅擴大了全球風險。
整合式機器學習作業 (MLOps) 的互聯性進一步擴大了這些風險。LLM 和更廣泛的 AI 開發管道擴大了攻擊面,需要更複雜的紅色團隊實務。
為了對抗這些不斷演進的 AI 威脅,網路安全領導者正在採用持續的對抗性測試。模擬真實世界 AI 攻擊的結構化「紅隊」演習,對於找出隱藏的弱點,並在被利用之前彌補安全漏洞,至關重要。
領先的 AI 組織如何使用紅色團隊來超越攻擊者
攻擊者越來越多地使用 AI 來開發前所未有的攻擊方法,以躲避傳統的安全控制。他們的目標是盡可能地發現並利用新出現的漏洞。
為了因應這種情況,頂尖的 AI 公司已將有系統的 Red Teaming 作為其安全策略的基石。與其零散地進行紅色團隊測試,他們會實施持續的對抗性測試,將人類的專業知識、嚴謹的自動化,以及迭代的人類在環評估結合起來。這種前瞻性的方法有助於在威脅被武器化之前就將其識別並消除。
透過嚴謹的測試方法,這些領導廠商可以有系統地找出弱點,並針對真實世界的敵對情境強化其模型。
主要方法包括
- Anthropic在其持續進行的紅色團隊流程中利用嚴格的人體評估。透過整合人為評估與自動對抗性攻擊,該公司可主動發現弱點,並持續強化其模型的可靠性與可解釋性。
- Meta透過自動化為先的方法來提升安全性。它的 Multi-round Automatic Red-Teaming (MART) 系統會反覆產生攻擊性提示,在大規模的 AI 部署中快速找出隱藏的漏洞並縮窄攻擊媒介。
- 微軟依賴跨領域的合作來提高 Red-Teaming 的效能。透過 Python 風險識別工具包 (PyRIT),微軟將網路安全知識與進階分析及人工驗證結合,加速發現漏洞並提供可行的洞察力,以加強模型的彈性。
- OpenAI與全球安全專家合作,大規模強化 AI 的防禦能力。透過將外部專家的洞察力與自動對抗測試和人工驗證週期相結合,OpenAI 可應對複雜的威脅 (尤其是錯誤資訊和提示注入風險),以維持穩健且值得信賴的模型效能。
總而言之,領先的 AI 組織認知到,要領先攻擊者需要堅定不移、主動積極的努力。這些公司將有組織的人工監督、有紀律的自動化,以及迭代精進嵌入其紅色團隊工作中,為建立彈性與可信賴的 AI 系統建立了基準。

加強 AI 安全性的五項可行策略
隨著針對 LLM 和 AI 模型的攻擊日趨複雜,DevOps 和 DevSecOps 團隊必須密切合作,以加強 AI 安全性。VentureBeat 建議安全領導者可立即實施以下五項影響深遠的策略:
- 及早整合安全性 (Anthropic, OpenAI)
將惡意測試直接嵌入初始設計階段,並在整個模型生命週期中持續進行。及早偵測弱點可降低風險、減少中斷情況,並減少長期成本。
- 部署適應性即時監控 (Microsoft)
靜態防禦不足以對抗先進的 AI 威脅。使用 CyberAlly 等持續性 AI 驅動的監控工具,可迅速偵測微妙的異常現象,減少被利用的機會。
- 平衡自動化與人工判斷 (Meta, Microsoft)
單靠自動化缺乏細微差異,而手動測試也無法擴充規模。將自動對抗性掃描和弱點評估與專家分析結合,以確保準確且可行的結果。
- 定期與外部紅色團隊合作 (OpenAI)
內部團隊可能會產生盲點。定期的外部紅色團隊評估可以發現被忽略的弱點、提供獨立驗證,並促進持續的安全性改善。
- 維護動態威脅情報 (Meta、Microsoft、OpenAI)
攻擊者會不斷改進他們的方法。持續整合即時威脅情報、自動分析和專家洞察力,主動更新並加強您的防禦措施。
這些策略可協助 DevOps 工作流程在面對快速演進的攻擊威脅時保持彈性與安全性。
紅色團隊現在是必要的,而不是可選的
AI 威脅已經變得太複雜、太頻繁,傳統、被動的網路安全無法有效管理。為了保持防禦優勢,組織必須在模型開發的每個階段嵌入持續的對抗測試。透過平衡自動化與人類洞察力,並動態調整防禦,領先的 AI 供應商證明了強大的安全性與快速的創新是可以並行的。
歸根結柢,紅色團隊不僅僅是要保護 AI 模型,更是要在 AI 驅動的未來建立信任、彈性和信心。
加入 2025 年變革的討論
我將於 6 月 24-25 日在三藩市 Fort Mason 舉辦的 VentureBeat's Transform 2025 中主持兩場以網路安全為重點的圓桌討論。現在就註冊參加。
其中一場會議的主題為AI Red Teaming and Adversarial Testing,將探討針對先進的惡意威脅測試和強化 AI 驅動的網路安全解決方案的策略。
首個山東百度AI漫畫劇集創作基地在淄博正式啟動
4月27日,山東省在淄博師範學院正式啟動了該省首個「百度AI漫畫劇創作基地」,標誌著該省在數位文化創作領域邁出了重要一步。該基地開啟了校企合作的新篇章,旨在透過AI技術與文化創作教育的深度融合,探索培育數位文化創作人才的創新模式。在揭牌儀式上,校方代表強調,該基地將作為創新人才培育及深化政校企合作的重要平台。 展望未來,該校計劃將真實的專案案例引入課堂,擺脫傳統教學方法,建立一個完整的專案式教學循
桑德伯格與克萊格加入 Nscale 董事會,這家被譽為「挪威星際之門」的新創公司估值達 146 億美元
隨著市場對能大規模提供 AI 運算能力的資料中心需求激增,由 Nvidia 支持的英國 AI 基礎設施公司 Nscale 估值已達 146 億美元。這使該公司與 Helsing 及 Mistral AI 並列,成為歐洲最新的「獨角獸」企業之一。Nscale 的策略核心在於垂直整合,涵蓋能源、資料中心、運算及調度軟體等領域。 此次估值是基於一輪20億美元的C輪融資,該公司稱此為「歐洲史上最大規模」,
Runway 53 億美元估值挑戰 Google,其影片 AI 技術已超越語言 AI
儘管多數人工智慧巨頭已投入數十億美元於語言模型,生成式人工智慧影片新創公司 Runway 卻正沿著截然不同的道路勇往直前。根據 TechCrunch 報導,這家由藝術學院畢業生創立的年輕公司,目前估值已達 53 億美元。近期財務數據顯示,Runway 在 2026 年第二季新增了 4,000 萬美元的年度經常性收入(ARR)。憑藉其新推出的 Gen-4.5 影片生成模型,該公司不僅鞏固了在好萊塢電





首頁






