Modern Agent [1] Survey


Modern Agent [1] Survey

image-20260320201206464

基础:推理(Reasoning)与规划(Planning)

  • 核心定义

    • 推理:从有限已知前提(如 “所有人会死”“苏格拉底是人”)推导出深层结论(“苏格拉底会死”),是 Agent 智能的核心体现,也是规划、反思的基础。
    • 规划:以推理为前提,对复杂任务进行 “目标识别→步骤分解→分步执行”,解决 LLM 在长周期、多轮交互任务中的短板。
    • Agentic 特性:模型通过与外部环境交互式解决问题,推理能力的强弱决定了对 Agent 智能的评价(超预期→惊艳,浅层次→失望)。
  • 经典推理类型

类型 逻辑特点 例子
演绎推理 确定性、前向推 三段论(大前提→小前提→结论)
归纳推理 或然性、多前提 见过的天鹅都是白色→天鹅皆白
  • LLM 原生短板(规划必要性)

    • 直接生成规划易出错(如积木堆叠任务中步骤遗漏 / 违规);
    • 长上下文迷失(多轮交互后忘记目标 / 已执行动作);
    • 无法处理精密状态约束(如机械臂一次只能拿一个物体)。

模块 1:任务分解(最基础)

核心目标:将复杂任务拆成小步骤,降低 LLM 推理难度

  • 关键方法
方法 核心逻辑 适用场景
CoT(思维链) Let’s think step by step,分步推理 简单逻辑题、短流程任务
ReAct 思考→行动→观察→再思考(边交互边拆) 需调用工具 / 环境反馈的任务
Plan-and-Solve 先显式生成完整规划,再严格执行 长周期、多步骤复杂任务
  • 优势与改进

  • 比 LLM 直接出答案准确率高,Plan-so 比 CoT 提升约 10 个点;

  • 动态优化:引入环境反馈,支持 “执行→修正规划”(弥补 “缸中之脑” 与真实交互的差距)。


模块 2:路径选择(解决 “多分支、状态爆炸”)

  • 核心目标:LLM 生成多个解题思路时,筛选最优路径,避免无效探索
  • 核心方案
方案 核心逻辑 关键技术
ToT(思维树) 思考过程拆成树结构,择优拓展节点 节点打分、剪枝(淘汰差路径)
LATS(LLM+MCTS) 结合蒙特卡洛树搜索,引导思考方向 UCB 值(平衡探索与利用)

模块 3:外部求解器(神经符号方案,工程落地重点)

  • 核心思路:扬长避短 ——LLM 做 “理解 / 翻译”,专业工具做 “精密规划”

  • 代表工具:PDDL(规划领域标准语言)

  • 经典流程(LM+P 方案)

    1. LLM 输入:自然语言任务(如 “把笔记本放进抽屉”);
    2. LLM 输出:目标状态(如 “笔记本 1 在抽屉 1 内”);
    3. PDDL 求解器:基于目标状态 + 环境约束(如 “一次只能拿一个物体”),生成可执行步骤;
    4. LLM 翻译:将 PDDL 步骤转为自然语言 / 执行指令。
  • 优势:解决 LLM 直接规划的 “步骤错误、约束违反” 问题,稳定性拉满。

  • 核心考点:什么是神经符号方案?LLM+PDDL 的工作流程?


模块 4:反思(Reflection/Self-Critic)

  • 核心定义

    • Agent 在生成方案、执行步骤后,对自身行为 / 结果进行 “自我批评、错误识别、优化修正” 的闭环过程,是提升规划可靠性、减少重复犯错的关键。
  • 本质:让 Agent 具备 “元认知能力”—— 不仅能解决问题,还能监控解决问题的过程。

  • 核心价值

    • 弥补 LLM “一次性输出” 的缺陷:解决 “生成即结束” 导致的错误无法修正问题;
    • 提升复杂任务成功率:通过多轮迭代优化,让方案更贴合目标和约束;
    • 降低外部依赖:减少对人工干预的需求,让 Agent 更自主。
  • 经典实现方法与案例

方法 / 案例 核心逻辑 适用场景
Self-Critic(自我批判) 先生成候选方案 → 调用 LLM 作为 “批判者”,检查逻辑漏洞 / 步骤错误 → 基于批判结果修正方案 逻辑推理、数学解题、规划生成
UCLA IMO 解决方案 提议(Generate Proposal)→ 验证(Verification)→ 反思(Reflection)→ 迭代完善(Iterate),循环至满足条件 高难度逻辑题、竞赛类任务
Deep Conf 计算每个 token 的置信度 → 加权得到整体方案置信度 → 对低置信度部分重点反思修正 事实性任务、精确计算类任务
  • 关键设计要点

    • 反思触发条件:执行失败后、方案置信度低于阈值、多轮交互后偏离目标;
    • 反思 Prompt 设计:明确要求 LLM“指出具体错误 + 给出修正方向”,而非泛泛评价;
    • 迭代次数控制:避免无限循环,设定最大迭代次数(如 3-5 轮)。
  • 核心考点:反思在 Agent 中的作用?经典的 “生成 - 验证 - 反思” 工作流是什么?

模块 5:记忆(Memory)

  • 核心定义: Agent 对 “历史信息” 的存储与调用系统,包括事实数据、执行记录、反思结论等,是支撑长周期任务、深度推理的基础 —— 无记忆则无持续智能。

  • 核心区别:Agent 的记忆≠简单存储,而是 “有选择、有提炼、能复用” 的信息管理。

  • 记忆的分类与层级

记忆类型 存储内容 特点 作用
短时记忆(Working Memory) 当前任务的目标、已执行步骤、实时环境反馈 临时存储、容量有限 支撑单轮 / 短流程任务执行
长时记忆(Long-Term Memory) 历史任务的经验、反思结论、通用规则(如 “机械臂一次只能拿一个物体”) 持久存储、可复用 指导新任务规划、避免重复犯错
深层记忆(Reflective Memory) 从多个事实 / 经验中提炼的抽象结论(如 “多次在步骤 3 出错→需先检查状态约束”) 抽象化、规律化 提升规划效率和准确性
  • 记忆设计的核心原则

    • 与反思强绑定:单纯记录事实的 “浅层记忆” 无价值,需结合反思提炼深层结论(如 “记录‘上午读论文’→ 反思‘对科研有热情’→ 指导‘推荐科研相关任务’”);
    • 动态更新:根据新任务反馈、反思结果,持续更新长时记忆(新增有效经验、删除无效信息);
    • 高效检索:通过关键词、任务类型等索引,让 Agent 在规划时快速调用相关记忆(避免长上下文冗余)。
  • 经典应用场景

    • 长周期任务:如持续 1 周的项目管理,Agent 通过记忆记录每日进度、问题,指导次日规划;
    • 个性化交互:记忆用户偏好(如 “不喜欢复杂步骤”),生成适配的规划方案;
    • 错误规避:记忆 “之前步骤 5 违反状态约束→本次规划直接跳过无效路径”。
  • 核心考点:Agent 的记忆为什么需要结合反思?短时记忆与长时记忆的区别及作用?


文章作者: zyuan
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 zyuan !
评论
  目录