最近,人工智能代理在网络安全领域取得了显著的进展。以下是关于两个主要项目的关键见解:
### CyberGym
目标:该项目旨在对188个开源软件项目中的1500多个真实漏洞进行压力测试。
要求:
浏览大型代码库
重现真实CVE(公共漏洞和暴露)案例的PoC(概念验证)
发现新的未知漏洞
#### 核心发现:
SOTA(最先进技术)代理与LLM(大语言模型)成功为约18%的历史CVE生成了PoC。
更引人注目的是,这些AI代理自主发现了15个零日漏洞。
### BountyBench
评估内容:此项目考察AI代理在25个复杂系统中处理40项价值超过30,000美元的漏洞赏金任务,涵盖OWASP前10名中的9类。
#### 核心发现:
AI代理成功解决了一系列数万美元值的漏洞赏金任务。
Codex CLI 和 Claude Code 在修补方面表现出色,分别达到了90%和87.5%,而它们在利用脆弱性方面也表现优异 (32.5% / 57.5%)。
自定义代理则在利用脆弱性 (40–67.5%) 和修补 (45–60 %) 上显示出了更均衡的性能。
这些研究成果展示了人工智能在网络安全领域的新潜力,使得以前需要高技能黑客才能完成的一些任务,现在可以由AI自主完成。这标志着一个重要转折点,有望改变未来网络安全防御策略的发展方向。