读论文 : AGENT SECURITY BENCH (ASB)


读论文 : AGENT SECURITY BENCH (ASB): FORMALIZING AND BENCHMARKING ATTACKS ANDDEFENSES IN LLM-BASED AGENTS

摘要

总结 AGENT SECURITY BENCH (ASB) 这篇论文的核心内容、创新点和文献综述。由于它是一个 Benchmark(基准测试)\工作,其重点在于*系统性评估标准*

ASB 的核心 Idea 是:为 LLM Agent 领域提供一个全面、系统、可复现的安全评估框架。

  • 问题切入点: LLM Agent(特别是具备规划、工具和记忆的 Agent)引入了传统 LLM 不具备的复杂安全漏洞,但现有研究缺乏一个能覆盖 Agent 整个操作流程的综合性评估工具。
  • 目标: ASB 旨在成为第一个能够形式化、基准化和评估针对 Agent 四种核心攻击类型多种防御机制整体性 (Holistic) 基准。

文献综述

ASB 的出现是为了解决现有安全评估基准的以下不足:

  1. 覆盖范围狭窄:
    • 局限: 大多数现有基准(如针对传统 LLM 的基准)只关注生成内容的安全性(如毒性、偏见),或者仅评估单一的 Agent 攻击类型(如提示注入)。
    • ASB 的超越: ASB 覆盖了 Agent 的整个生命周期:系统提示、用户输入、记忆检索、工具使用,并形式化了四种攻击类型。
  2. 缺乏对 Agent 独有机制的深入评估:
    • 局限: 现有评估对 Agent 记忆机制(Memory Poisoning)和规划机制(Plan-of-Thought)的攻击评估不足,通常需要白盒知识或仅关注训练时投毒。
    • ASB 的超越: ASB 首次引入训练无关Plan-of-Thought (PoT) 后门攻击,并采用黑盒方式评估记忆投毒,更贴近真实攻击场景。
  3. 缺乏统一的评估指标:
    • 局限: 简单地看“攻击成功率”无法体现 Agent 在实用性安全性之间的平衡。
    • ASB 的超越: 引入 Net Resilient Performance (NRP) 综合指标,平衡了 PNA (无攻击下的任务性能)ASR (攻击成功率)

核心设计与创新点

ASB 框架的设计是其作为综合基准的关键。

1. 创新点 A:攻击类型形式化(针对 Agent 流程)

ASB 系统地将攻击类型与其所针对的 Agent 组件和阶段进行了关联:

攻击类型 目标 Agent 阶段 攻击描述 创新点/挑战
直接提示注入 (DPI) 用户提示 恶意指令植入用户输入。 评估 Agent工具调用的安全性。
间接提示注入 (IPI) 外部工具观察结果 恶意指令隐藏在 Agent 检索的网页或 API 响应中。 评估 Agent环境交互的安全性。
内存投毒 (Memory Poisoning) 长期记忆/RAG 数据库 向 Agent 记忆中注入虚假或恶意指令,影响规划。 评估 Agent记忆检索的安全性。
Plan-of-Thought (PoT) 后门攻击 (Novel) 系统提示 / 规划阶段 在系统提示中隐藏后门,只有特定触发词激活时才执行恶意动作。 训练无关,针对 Agent 规划逻辑的全新攻击。

2. 创新点 B:评估框架的广度与深度

  • 多样化的场景: 包含 10 个现实世界的高风险任务场景(如金融、电商、自动驾驶、IT 管理)。
  • 多样的工具和 Agent: 提供了 10 个 Agent 和超过 400 种工具,确保评估结果的通用性
  • 全面的防御评估: 基准测试了超过 11 种现有的防御机制(如分隔符、困惑度检测、基于 CoT 的防御)。

3. 创新点 C:Net Resilient Performance (NRP) 综合指标

ASB 提出了 NRP 作为核心指标,解决了传统评估中安全性和实用性脱节的问题。

  • PNA (Performance under No Attack): 衡量 Agent 完成正常任务的实用性
  • ASR (Attack Success Rate): 衡量 Agent 抵抗攻击的安全性
  • 意义: 只有在PNA 很高(能做任务)且 ASR 很低(能防攻击)时,NRP 才会很高。这个指标是选择安全且实用的 Agent 骨干模型的关键。

总结

ASB 证明了 LLM Agent 在其所有核心操作环节都存在严重漏洞,并且现有防御机制的有效性非常有限。这为包括您提出的 TTA Agent 在内的所有 Agent 安全研究指明了方向和评估标准。

🔬 AGENT SECURITY BENCH (ASB) 实验部分完整阐述

一、实验设置:构成评估体系的关键要素

ASB 实验的设计是为了模拟真实世界中 Agent 在高风险场景下的操作。

1. 评估主体 (Subjects)

  • Agent 类型: 使用了 10 个针对不同高风险场景(如电商、金融、IT 管理、自动驾驶)的 Agent。
  • LLM 骨干模型 (Backbones): 基准测试了多种主流的 LLM(包括闭源和开源),例如:GPT-4、GPT-3.5-Turbo、LLaMA2-70B、Mistral-7B 等,以验证攻击和防御的通用性。
  • 工具集: 提供了超过 400 种工具,模拟 Agent 能够与外部环境进行交互的复杂性。

2. 核心攻击类型 (The Attacks)

实验系统性地测试了四种核心攻击和它们的混合攻击:

攻击类型 针对 Agent 阶段 实验目的
DPI (Direct Prompt Injection) 用户输入 测试 Agent 对恶意用户指令的抵抗力。
IPI (Indirect Prompt Injection) 外部观察结果/工具反馈 测试 Agent 从外部数据源接收恶意指令时的抵抗力。
Memory Poisoning 长期记忆 测试 Agent检索到的记忆被投毒时,规划逻辑的可靠性。
PoT Backdoor (Novel) 系统提示/规划 测试 Agent 的规划逻辑是否可以被训练无关的隐藏后门触发。

3. 核心防御机制 (The Defenses)

ASB 评估了 11 种现有的防御机制(Baseline),这些是您在设计自己的 Idea 时需要对比的强有力基线

  • 基于 Prompt 的防御: 如使用分隔符 (Separator)隔离用户输入与系统指令。
  • 基于行为的防御:困惑度检测 (Perplexity-based Detection),尝试检测恶意 Prompt 的不自然性。
  • 基于 LLM 的防御: 如使用 CoT (Chain-of-Thought)让 Agent 自我反思其动作的安全性。
  • 工具限制: 严格限制 Agent 对高风险工具的调用。

二、评估指标 (Evaluation Metrics)

ASB 的实验通过七种指标来评估 Agent 的表现,但最重要的有三个,它们构成了 NRP

  1. PNA (Performance under No Attack) ↑ : 无攻击下的任务完成率。 衡量 Agent 实用性
  2. ASR (Attack Success Rate) ↓: 攻击成功率。 衡量 Agent 安全性
  3. NRP (Net Resilient Performance)↑: 净弹性性能,即PNA × (1 - ASR)。衡量实用性与安全性的平衡。

三、关键实验发现 (Key Findings)

这些发现揭示了当前 Agent 的主要漏洞,是您寻找 Idea 的灵感来源:

  1. LLM Agent 普遍脆弱: 在混合攻击下,Agent 的平均 ASR (攻击成功率) 最高可达 84.30%,证明 Agent 在所有操作流程中都存在严重漏洞。
  2. 规划与记忆的脆弱性: PoT BackdoorMemory Poisoning 攻击的成功率非常高,显示出 Agent 独有的规划和记忆环节是主要攻击面。
  3. 现有防御的局限: 现有防御机制在抵抗 PoT Backdoor 和混合攻击时的效果都非常有限,没有一种防御能够同时在所有攻击类型下表现优异
  4. 骨干模型的影响: 性能更强的闭源模型(如 GPT-4)在安全性上通常优于开源模型(如 LLaMA2),但依然容易被绕过

文章作者: zyuan
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 zyuan !
评论
  目录