读论文 : AGENT SECURITY BENCH (ASB)

读论文 LLM安全

AI科研

发布日期: 2025-10-16

更新日期: 2025-10-16

文章字数: 1.9k

阅读时长: 6 分

阅读次数:

读论文 : AGENT SECURITY BENCH (ASB): FORMALIZING AND BENCHMARKING ATTACKS ANDDEFENSES IN LLM-BASED AGENTS

总结 AGENT SECURITY BENCH (ASB) 这篇论文的核心内容、创新点和文献综述。由于它是一个 Benchmark（基准测试）\工作，其重点在于*系统性和评估标准*。

ASB 的核心 Idea 是：为 LLM Agent 领域提供一个全面、系统、可复现的安全评估框架。

问题切入点： LLM Agent（特别是具备规划、工具和记忆的 Agent）引入了传统 LLM 不具备的复杂安全漏洞，但现有研究缺乏一个能覆盖 Agent 整个操作流程的综合性评估工具。
目标： ASB 旨在成为第一个能够形式化、基准化和评估针对 Agent 四种核心攻击类型和多种防御机制的整体性 (Holistic) 基准。

ASB 的出现是为了解决现有安全评估基准的以下不足：

覆盖范围狭窄：
- 局限： 大多数现有基准（如针对传统 LLM 的基准）只关注生成内容的安全性（如毒性、偏见），或者仅评估单一的 Agent 攻击类型（如提示注入）。
- ASB 的超越： ASB 覆盖了 Agent 的整个生命周期：系统提示、用户输入、记忆检索、工具使用，并形式化了四种攻击类型。
缺乏对 Agent 独有机制的深入评估：
- 局限： 现有评估对 Agent 记忆机制（Memory Poisoning）和规划机制（Plan-of-Thought）的攻击评估不足，通常需要白盒知识或仅关注训练时投毒。
- ASB 的超越： ASB 首次引入训练无关的 Plan-of-Thought (PoT) 后门攻击，并采用黑盒方式评估记忆投毒，更贴近真实攻击场景。
缺乏统一的评估指标：
- 局限： 简单地看“攻击成功率”无法体现 Agent 在实用性和安全性之间的平衡。
- ASB 的超越： 引入 Net Resilient Performance (NRP) 综合指标，平衡了 PNA (无攻击下的任务性能) 和 ASR (攻击成功率)。

ASB 框架的设计是其作为综合基准的关键。

ASB 系统地将攻击类型与其所针对的 Agent 组件和阶段进行了关联：

攻击类型	目标 Agent 阶段	攻击描述	创新点/挑战
直接提示注入 (DPI)	用户提示	恶意指令植入用户输入。	评估 Agent工具调用的安全性。
间接提示注入 (IPI)	外部工具观察结果	恶意指令隐藏在 Agent 检索的网页或 API 响应中。	评估 Agent环境交互的安全性。
内存投毒 (Memory Poisoning)	长期记忆/RAG 数据库	向 Agent 记忆中注入虚假或恶意指令，影响规划。	评估 Agent记忆检索的安全性。
Plan-of-Thought (PoT) 后门攻击 (Novel)	系统提示 / 规划阶段	在系统提示中隐藏后门，只有特定触发词激活时才执行恶意动作。	训练无关，针对 Agent 规划逻辑的全新攻击。

ASB 提出了 NRP 作为核心指标，解决了传统评估中安全性和实用性脱节的问题。

$NRP (Net Resilient Performance) = PNA × (1 - ASR)$

PNA (Performance under No Attack)： 衡量 Agent 完成正常任务的实用性。
ASR (Attack Success Rate)： 衡量 Agent 抵抗攻击的安全性。
意义： 只有在PNA 很高（能做任务）且 ASR 很低（能防攻击）时，NRP 才会很高。这个指标是选择安全且实用的 Agent 骨干模型的关键。

ASB 证明了 LLM Agent 在其所有核心操作环节都存在严重漏洞，并且现有防御机制的有效性非常有限。这为包括您提出的 TTA Agent 在内的所有 Agent 安全研究指明了方向和评估标准。

ASB 实验的设计是为了模拟真实世界中 Agent 在高风险场景下的操作。

Agent 类型： 使用了 10 个针对不同高风险场景（如电商、金融、IT 管理、自动驾驶）的 Agent。
LLM 骨干模型 (Backbones)： 基准测试了多种主流的 LLM（包括闭源和开源），例如：GPT-4、GPT-3.5-Turbo、LLaMA2-70B、Mistral-7B 等，以验证攻击和防御的通用性。
工具集： 提供了超过 400 种工具，模拟 Agent 能够与外部环境进行交互的复杂性。

实验系统性地测试了四种核心攻击和它们的混合攻击：

攻击类型	针对 Agent 阶段	实验目的
DPI (Direct Prompt Injection)	用户输入	测试 Agent 对恶意用户指令的抵抗力。
IPI (Indirect Prompt Injection)	外部观察结果/工具反馈	测试 Agent 从外部数据源接收恶意指令时的抵抗力。
Memory Poisoning	长期记忆	测试 Agent检索到的记忆被投毒时，规划逻辑的可靠性。
PoT Backdoor (Novel)	系统提示/规划	测试 Agent 的规划逻辑是否可以被训练无关的隐藏后门触发。

ASB 评估了 11 种现有的防御机制（Baseline），这些是您在设计自己的 Idea 时需要对比的强有力基线：

ASB 的实验通过七种指标来评估 Agent 的表现，但最重要的有三个，它们构成了 NRP：

PNA (Performance under No Attack) ↑ ： 无攻击下的任务完成率。 衡量 Agent 实用性。
ASR (Attack Success Rate) ↓： 攻击成功率。 衡量 Agent 安全性。
NRP (Net Resilient Performance)↑： 净弹性性能，即PNA × (1 - ASR)。衡量实用性与安全性的平衡。

这些发现揭示了当前 Agent 的主要漏洞，是您寻找 Idea 的灵感来源：

LLM Agent 普遍脆弱： 在混合攻击下，Agent 的平均 ASR (攻击成功率) 最高可达 84.30%，证明 Agent 在所有操作流程中都存在严重漏洞。
规划与记忆的脆弱性： PoT Backdoor 和 Memory Poisoning 攻击的成功率非常高，显示出 Agent 独有的规划和记忆环节是主要攻击面。
现有防御的局限： 现有防御机制在抵抗 PoT Backdoor 和混合攻击时的效果都非常有限，没有一种防御能够同时在所有攻击类型下表现优异。
骨干模型的影响： 性能更强的闭源模型（如 GPT-4）在安全性上通常优于开源模型（如 LLaMA2），但依然容易被绕过。