Red team AI 致力于打造更安全、更智能的未来模型,机遇与障碍并存。
编者按:路易斯将在本月晚些时候的 VB Transform 上主持一个有关此主题的编辑圆桌会议。立即注册。
人工智能模型正面临着无情的攻击。77%的企业已经成为敌对攻击的目标--其中41%的攻击涉及及时注入和数据中毒--攻击者的方法比当前的网络防御更快。
要扭转这一趋势,我们必须从根本上重新思考如何将安全内置于当今的人工智能模型中。DevOps 团队必须从反应姿态转向在整个开发生命周期中嵌入持续的对抗测试。
让红队成为人工智能防御的核心
在整个 DevOps 周期中保护大型语言模型 (LLM) 需要将红队作为核心实践进行整合。持续的对抗性测试必须嵌入软件开发生命周期(SDLC)的每个阶段,而不是将安全视为最后的检查点--这在网络应用程序管道中很常见。

Gartner 的 Hype Cycle 强调了持续威胁暴露管理(CTEM)日益增长的作用,说明了为什么红队必须成为 DevSecOps 生命周期的组成部分。来源:Gartner资料来源:Gartner,Hype Cycle for Security Operations,2024 年。 要应对不断上升的威胁,如提示注入、数据中毒和敏感信息泄漏,必须采用更加集成的 DevSecOps 方法。此类危险攻击从模型设计到部署的整个过程中都在不断发生,这凸显了持续监控的紧迫性。
微软最近发布的针对 LLM 及其应用程序的红队演习规划指南为综合安全流程提供了一个坚实的起点。同样,NIST 的人工智能风险管理框架也要求采用积极主动、以生命周期为导向的方法来进行对抗性测试和降低风险。微软对 100 多款生成式人工智能产品的测试强化了在整个模型开发过程中将自动威胁检测与专家分析相结合的必要性。
由于《欧盟人工智能法案》等法规提出了严格的对抗性测试要求,持续的红队测试不仅能确保合规性,还能提高整体安全弹性。
从初始设计到部署,OpenAI 都纳入了外部红队测试,验证了持续的预防性安全测试对于成功开发 LLM 至关重要。

Gartner 的框架说明了红队的渐进成熟阶段,从基础演练到高级模拟--这是系统加强人工智能模型保护的关键。 资料来源资料来源:Gartner,《通过开展红队演习提高网络弹性 传统网络安全为何无法应对人工智能威胁
传统网络安全方法难以抵御人工智能驱动的攻击,因为这些威胁的运作原理完全不同。随着对抗策略超越传统防御,新的 "红队 "技术势在必行。以下是几种专门针对 DevOps 周期和部署后的人工智能模型而设计的攻击方法:
- 数据中毒:攻击者在训练数据集中引入恶意或有偏见的数据,导致人工智能模型学习不准确。这会造成持续性错误和操作缺陷而不被发现,从而削弱对人工智能驱动结果的信任。
- 模型规避:攻击者利用静态规则和基于模式的安全系统的局限性,巧妙地改变输入以绕过检测机制。
- 模型反转:通过重复、系统的查询,攻击者可以重建或暴露训练中使用的机密数据,从而导致严重的隐私泄露。
- 提示注入:攻击者设计的输入会操纵生成式人工智能,使其忽视保障措施,从而可能产生有害、非预期或未经授权的内容。
- 双重用途前沿风险:正如最近发表的论文《及早建立基准,经常组建红队》(Benchmark Early and Red Team Often:加州大学伯克利分校长期网络安全中心(Centerfor Long-Term Cybersecurity)的研究人员警告说,先进的人工智能模型降低了非专业人员实施复杂网络攻击、化学威胁或其他危险漏洞的门槛,从而显著扩大了全球风险。
综合机器学习行动(MLOps)的相互关联性进一步扩大了这些风险。LLM 和更广泛的人工智能开发管道扩大了攻击面,需要更复杂的红队实践。
为了应对这些不断演变的人工智能威胁,网络安全领导者正在采用持续对抗测试。现在,模拟真实世界人工智能攻击的结构化红队演习对于发现隐藏的弱点并在安全漏洞被利用之前弥补它们至关重要。
领先的人工智能组织如何利用红队来超越攻击者
攻击者越来越多地利用人工智能来开发前所未有的攻击方法,以规避传统的安全控制。他们的目标是尽可能多地发现和利用新出现的漏洞。
对此,顶级人工智能公司已将系统化的红色团队作为其安全战略的基石。它们不是零星地进行红队测试,而是实施持续的对抗测试,将人类的专业知识、严谨的自动化和迭代的人工在环评估融为一体。这种积极主动的方法有助于在威胁被武器化之前将其识别出来并加以化解。
通过严格的测试方法,这些领导者能够系统地找出弱点,并针对真实世界的对抗场景强化其模型。
主要方法包括
- Anthropic在其持续的 "红队 "流程中利用了严格的人工评估。通过将人工环路评估与自动对抗攻击相结合,该公司能够主动发现漏洞,并不断增强模型的可靠性和可解释性。
- Meta通过自动化优先的方法提高安全性。其多轮自动红队(MART)系统可反复生成对抗性提示,在大规模人工智能部署中快速识别隐藏的漏洞并缩小攻击向量。
- 微软依靠跨学科合作来提高红队效率。利用其 Python 风险识别工具包 (PyRIT),微软将网络安全知识与先进的分析技术和人工验证相结合,加快了漏洞发现速度,并提供了可操作的见解,以增强模型的复原力。
- OpenAI与全球安全专家合作,大规模增强人工智能防御能力。通过将外部专家的见解与自动化对抗测试和人工验证周期相结合,OpenAI 可以应对复杂的威胁,尤其是错误信息和提示注入风险,从而保持模型性能的稳健性和可信度。
从本质上讲,领先的人工智能企业认识到,要想领先于攻击者,就必须坚定不移地积极努力。通过将结构化的人工监督、严谨的自动化和迭代改进纳入红队工作,这些公司为构建弹性和可信赖的人工智能系统确立了基准。

Gartner 说明了对抗性暴露验证 (AEV) 如何支持优化的防御策略、改进的威胁感知和可扩展的进攻性测试--这对确保人工智能模型的安全至关重要。来源:Gartner来源:Gartner,对抗暴露验证市场指南 加强人工智能安全的五项可行策略
随着对 LLM 和 AI 模型的攻击日益复杂,DevOps 和 DevSecOps 团队必须密切合作,以加强 AI 安全。VentureBeat 推荐了安全领导者可以立即实施的五项高效策略:
- 尽早整合安全性(Anthropic、OpenAI)
将对抗测试直接嵌入初始设计阶段,并在整个模型生命周期中持续进行。早期漏洞检测可降低风险、减少中断并削减长期成本。
- 部署自适应实时监控(微软)
静态防御不足以抵御高级人工智能威胁。使用 CyberAlly 等人工智能驱动的持续监控工具可迅速检测到细微的异常情况,从而减少被利用的机会。
- 平衡自动化与人工判断(Meta、微软)
自动化本身缺乏细微差别,人工测试也无法扩展。将自动对抗扫描和漏洞评估与专家分析相结合,可确保获得准确、可行的结果。
- 定期聘请外部红队(OpenAI)
内部团队可能会出现盲点。定期的外部红队评估可以发现被忽视的弱点,提供独立验证,并推动持续的安全改进。
- 维护动态威胁情报(Meta、Microsoft、OpenAI)
攻击者会不断改进攻击方法。持续整合实时威胁情报、自动分析和专家见解,主动更新和加强防御措施。
这些策略共同帮助 DevOps 工作流程在面对快速演变的敌对威胁时保持弹性和安全。
红色团队现在是必要的,而不是可选的
人工智能威胁已变得过于复杂和频繁,传统的被动式网络安全无法有效管理。为了保持防御优势,企业必须在模型开发的每个阶段嵌入持续的对抗测试。通过平衡自动化与人类洞察力,并动态调整防御措施,领先的人工智能提供商证明了强大的安全性与快速创新是可以并行不悖的。
归根结底,红队不仅仅是为了保护人工智能模型,更是为了在人工智能驱动的未来建立信任、弹性和信心。
加入 2025 转型大会的讨论
我将在 6 月 24-25 日于旧金山梅森堡举行的 VentureBeat's Transform 2025 会议上主持两场以网络安全为主题的圆桌讨论。现在就注册参加。
其中一场会议的主题是人工智能红队和对抗性测试,将探讨针对高级对抗性威胁测试和强化人工智能驱动的网络安全解决方案的策略。
相关文章
AIGCPanel 2.0.0 重大更新:工作流引擎开启自动化数字人创作的新纪元
AIGCPanel 作为一款强大的本地数字人创作工具,刚刚发布了 2.0.0 版本——被誉为“迄今为止最重大的更新”。 此次核心升级通过工作流引擎和CLI命令行工具,将数字人合成、语音克隆及音视频处理功能有机整合,从而解决了当前AI创作工具分散的问题,实现了从手动组装到自动化生产的转变。1. 核心升级:定义逻辑流程,一键输出AIGCPanel 2.0.0 的突出新功能是工作流引擎:基于节点的组合:
BuzzFeed 推出专注于垃圾应用的 AI 子公司
在面临重大经营危机的背景下,曾经的数字媒体巨头BuzzFeed正启动一项由人工智能驱动的雄心勃勃的自救实验。 在最近举行的SXSW大会上,联合创始人兼首席执行官乔纳·佩雷蒂宣布成立一家名为Branch Office的子公司,旨在通过一系列由人工智能驱动的消费者应用程序,重新定义“软件即内容”的商业模式。核心产品组合:融合网络梗与社交媒体Branch Office 推出了三款核心应用,每款都旨在捕捉
ChatGPT成人模式再次推迟;奥特曼:优先考虑智能
OpenAI再次推迟推出备受争议的功能,转而专注于个性化和主动交互“不适当内容”是否应成为高效AI工具的一部分,这一问题在科技界早已引发热议。 OpenAI曾承诺让ChatGPT更好地理解成年用户,但再次令期待这一变革的人们失望。据IT之家报道,该公司近日确认,原定于2026年第一季度推出的所谓“成人模式”已再次推迟。这并非萨姆·阿尔特曼(Sam Altman)首次食言。早在2025年底,他就曾宣
相关专题推荐
评论 (0)
0/500
编者按:路易斯将在本月晚些时候的 VB Transform 上主持一个有关此主题的编辑圆桌会议。立即注册。
人工智能模型正面临着无情的攻击。77%的企业已经成为敌对攻击的目标--其中41%的攻击涉及及时注入和数据中毒--攻击者的方法比当前的网络防御更快。
要扭转这一趋势,我们必须从根本上重新思考如何将安全内置于当今的人工智能模型中。DevOps 团队必须从反应姿态转向在整个开发生命周期中嵌入持续的对抗测试。
让红队成为人工智能防御的核心
在整个 DevOps 周期中保护大型语言模型 (LLM) 需要将红队作为核心实践进行整合。持续的对抗性测试必须嵌入软件开发生命周期(SDLC)的每个阶段,而不是将安全视为最后的检查点--这在网络应用程序管道中很常见。

要应对不断上升的威胁,如提示注入、数据中毒和敏感信息泄漏,必须采用更加集成的 DevSecOps 方法。此类危险攻击从模型设计到部署的整个过程中都在不断发生,这凸显了持续监控的紧迫性。
微软最近发布的针对 LLM 及其应用程序的红队演习规划指南为综合安全流程提供了一个坚实的起点。同样,NIST 的人工智能风险管理框架也要求采用积极主动、以生命周期为导向的方法来进行对抗性测试和降低风险。微软对 100 多款生成式人工智能产品的测试强化了在整个模型开发过程中将自动威胁检测与专家分析相结合的必要性。
由于《欧盟人工智能法案》等法规提出了严格的对抗性测试要求,持续的红队测试不仅能确保合规性,还能提高整体安全弹性。
从初始设计到部署,OpenAI 都纳入了外部红队测试,验证了持续的预防性安全测试对于成功开发 LLM 至关重要。

传统网络安全为何无法应对人工智能威胁
传统网络安全方法难以抵御人工智能驱动的攻击,因为这些威胁的运作原理完全不同。随着对抗策略超越传统防御,新的 "红队 "技术势在必行。以下是几种专门针对 DevOps 周期和部署后的人工智能模型而设计的攻击方法:
- 数据中毒:攻击者在训练数据集中引入恶意或有偏见的数据,导致人工智能模型学习不准确。这会造成持续性错误和操作缺陷而不被发现,从而削弱对人工智能驱动结果的信任。
- 模型规避:攻击者利用静态规则和基于模式的安全系统的局限性,巧妙地改变输入以绕过检测机制。
- 模型反转:通过重复、系统的查询,攻击者可以重建或暴露训练中使用的机密数据,从而导致严重的隐私泄露。
- 提示注入:攻击者设计的输入会操纵生成式人工智能,使其忽视保障措施,从而可能产生有害、非预期或未经授权的内容。
- 双重用途前沿风险:正如最近发表的论文《及早建立基准,经常组建红队》(Benchmark Early and Red Team Often:加州大学伯克利分校长期网络安全中心(Centerfor Long-Term Cybersecurity)的研究人员警告说,先进的人工智能模型降低了非专业人员实施复杂网络攻击、化学威胁或其他危险漏洞的门槛,从而显著扩大了全球风险。
综合机器学习行动(MLOps)的相互关联性进一步扩大了这些风险。LLM 和更广泛的人工智能开发管道扩大了攻击面,需要更复杂的红队实践。
为了应对这些不断演变的人工智能威胁,网络安全领导者正在采用持续对抗测试。现在,模拟真实世界人工智能攻击的结构化红队演习对于发现隐藏的弱点并在安全漏洞被利用之前弥补它们至关重要。
领先的人工智能组织如何利用红队来超越攻击者
攻击者越来越多地利用人工智能来开发前所未有的攻击方法,以规避传统的安全控制。他们的目标是尽可能多地发现和利用新出现的漏洞。
对此,顶级人工智能公司已将系统化的红色团队作为其安全战略的基石。它们不是零星地进行红队测试,而是实施持续的对抗测试,将人类的专业知识、严谨的自动化和迭代的人工在环评估融为一体。这种积极主动的方法有助于在威胁被武器化之前将其识别出来并加以化解。
通过严格的测试方法,这些领导者能够系统地找出弱点,并针对真实世界的对抗场景强化其模型。
主要方法包括
- Anthropic在其持续的 "红队 "流程中利用了严格的人工评估。通过将人工环路评估与自动对抗攻击相结合,该公司能够主动发现漏洞,并不断增强模型的可靠性和可解释性。
- Meta通过自动化优先的方法提高安全性。其多轮自动红队(MART)系统可反复生成对抗性提示,在大规模人工智能部署中快速识别隐藏的漏洞并缩小攻击向量。
- 微软依靠跨学科合作来提高红队效率。利用其 Python 风险识别工具包 (PyRIT),微软将网络安全知识与先进的分析技术和人工验证相结合,加快了漏洞发现速度,并提供了可操作的见解,以增强模型的复原力。
- OpenAI与全球安全专家合作,大规模增强人工智能防御能力。通过将外部专家的见解与自动化对抗测试和人工验证周期相结合,OpenAI 可以应对复杂的威胁,尤其是错误信息和提示注入风险,从而保持模型性能的稳健性和可信度。
从本质上讲,领先的人工智能企业认识到,要想领先于攻击者,就必须坚定不移地积极努力。通过将结构化的人工监督、严谨的自动化和迭代改进纳入红队工作,这些公司为构建弹性和可信赖的人工智能系统确立了基准。

加强人工智能安全的五项可行策略
随着对 LLM 和 AI 模型的攻击日益复杂,DevOps 和 DevSecOps 团队必须密切合作,以加强 AI 安全。VentureBeat 推荐了安全领导者可以立即实施的五项高效策略:
- 尽早整合安全性(Anthropic、OpenAI)
将对抗测试直接嵌入初始设计阶段,并在整个模型生命周期中持续进行。早期漏洞检测可降低风险、减少中断并削减长期成本。
- 部署自适应实时监控(微软)
静态防御不足以抵御高级人工智能威胁。使用 CyberAlly 等人工智能驱动的持续监控工具可迅速检测到细微的异常情况,从而减少被利用的机会。
- 平衡自动化与人工判断(Meta、微软)
自动化本身缺乏细微差别,人工测试也无法扩展。将自动对抗扫描和漏洞评估与专家分析相结合,可确保获得准确、可行的结果。
- 定期聘请外部红队(OpenAI)
内部团队可能会出现盲点。定期的外部红队评估可以发现被忽视的弱点,提供独立验证,并推动持续的安全改进。
- 维护动态威胁情报(Meta、Microsoft、OpenAI)
攻击者会不断改进攻击方法。持续整合实时威胁情报、自动分析和专家见解,主动更新和加强防御措施。
这些策略共同帮助 DevOps 工作流程在面对快速演变的敌对威胁时保持弹性和安全。
红色团队现在是必要的,而不是可选的
人工智能威胁已变得过于复杂和频繁,传统的被动式网络安全无法有效管理。为了保持防御优势,企业必须在模型开发的每个阶段嵌入持续的对抗测试。通过平衡自动化与人类洞察力,并动态调整防御措施,领先的人工智能提供商证明了强大的安全性与快速创新是可以并行不悖的。
归根结底,红队不仅仅是为了保护人工智能模型,更是为了在人工智能驱动的未来建立信任、弹性和信心。
加入 2025 转型大会的讨论
我将在 6 月 24-25 日于旧金山梅森堡举行的 VentureBeat's Transform 2025 会议上主持两场以网络安全为主题的圆桌讨论。现在就注册参加。
其中一场会议的主题是人工智能红队和对抗性测试,将探讨针对高级对抗性威胁测试和强化人工智能驱动的网络安全解决方案的策略。
AIGCPanel 2.0.0 重大更新:工作流引擎开启自动化数字人创作的新纪元
AIGCPanel 作为一款强大的本地数字人创作工具,刚刚发布了 2.0.0 版本——被誉为“迄今为止最重大的更新”。 此次核心升级通过工作流引擎和CLI命令行工具,将数字人合成、语音克隆及音视频处理功能有机整合,从而解决了当前AI创作工具分散的问题,实现了从手动组装到自动化生产的转变。1. 核心升级:定义逻辑流程,一键输出AIGCPanel 2.0.0 的突出新功能是工作流引擎:基于节点的组合:
BuzzFeed 推出专注于垃圾应用的 AI 子公司
在面临重大经营危机的背景下,曾经的数字媒体巨头BuzzFeed正启动一项由人工智能驱动的雄心勃勃的自救实验。 在最近举行的SXSW大会上,联合创始人兼首席执行官乔纳·佩雷蒂宣布成立一家名为Branch Office的子公司,旨在通过一系列由人工智能驱动的消费者应用程序,重新定义“软件即内容”的商业模式。核心产品组合:融合网络梗与社交媒体Branch Office 推出了三款核心应用,每款都旨在捕捉
ChatGPT成人模式再次推迟;奥特曼:优先考虑智能
OpenAI再次推迟推出备受争议的功能,转而专注于个性化和主动交互“不适当内容”是否应成为高效AI工具的一部分,这一问题在科技界早已引发热议。 OpenAI曾承诺让ChatGPT更好地理解成年用户,但再次令期待这一变革的人们失望。据IT之家报道,该公司近日确认,原定于2026年第一季度推出的所谓“成人模式”已再次推迟。这并非萨姆·阿尔特曼(Sam Altman)首次食言。早在2025年底,他就曾宣





首页






