Modern Agent [3] Gemini 2.5 pro Workflow


Modern Agent [3] Gemini 2.5 pro Workflow

核心成果

仅使用原生 Gemini 2.5 Pro(无微调),搭配「生成 - 验证 - 修正」迭代 Agent 工作流,解出 2025 IMO 6 道题中的前 5 道,达到人类 IMO 金牌水平;单独调用 API 无法实现该效果。

整体核心思路

采用 Actor-Critic 模式:

  • Actor:Gemini 充当解题生成器

  • Critic:Gemini 同时充当竞赛级阅卷验证器

    通过多轮迭代,不断完善解法直至合格。

image-20260320212759908

完整工作流步骤

1. 初始解生成(Step 1 + Step 2)

  • Step 1

    输入题目 + 解题 Prompt,模型生成初始解;但因 Thinking Token 上限(32768)易被打满,解法仓促、逻辑不完整。

  • Step 2

    共享 Step 1 上下文,追加改进 Prompt,让模型继续思考、补全步骤、修正疏漏,充分利用思考能力,最终得到

    完整初始解

2. 解法验证(Step 3)

  • 角色定位:IMO 级别数学家 + 严谨阅卷人

  • 工作规则:只验证、不修正,逐步骤检查

  • 错误类型:

    ① 严重逻辑错误

    ② 证明跳步(Justification Gap)

  • 输出内容:验证结论(有效 / 无效)+ Bug 报告(错误位置 + 原因)+ 详细验证日志

3. 解法修正(Step 4)

输入:当前解法 + 验证得到的 Bug Report

模型根据反馈修改错误、填补逻辑缺口,生成新的解法

4. 循环迭代

新解法重新送入「验证环节」,不断重复「验证→修正→验证」,直到满足终止条件。

终止判断规则

  • 成功终止:连续 5 次验证均判定无瑕疵、解法有效 → 接受该答案
  • 失败终止:连续 10 次验证均不通过 → 判定此题无法求解

关键结论

  1. 初始解质量决定最终成败

    初始解与正确解重叠度高 → 易修正成功;初始解方向错误 → 基本无法挽回。

  2. 迭代循环是关键

    单纯调用模型无法解出难题,生成 - 评估 - 修正的流程能充分激发模型能力。

  3. 模型通用性强

    Gemini 2.5 Pro 可同时胜任「解题生成」和「严谨验证」两个角色。

Prompt 设计要点

解题 Prompt(生成解)

  • 格式:标准 Markdown 结构化
  • 核心要求:逻辑严谨、禁止幻觉(不会不硬编)
  • 输出结构:总结(结论 + 解题思路)+ 详细解题步骤,方便后续提取与判断。

验证 Prompt

  • 角色扮演:顶级数学竞赛阅卷者
  • 约束:只做审查,不提供修正方案
  • 输出:结构化结论 + 问题清单,用于后续修正环节。

工程实现细节

  1. 原生 HTTP/Post 请求易超时(思考耗时近 10 分钟),改用 Google GenAI SDK + 流式输出 更稳定,可实时监控过程。
  2. 模型展示的 Thinking 过程是总结版,并非原生思考流。
  3. Thinking Token 预算控制不严格,设置 32768 实际可能超 34000。

实际运行案例(IMO 第 1 题)

  • 外部大循环仅运行 1 次
  • 内部迭代共 8 轮
  • 前几轮验证失败并持续修正,第 4 轮后验证通过,随后连续 5 次合格,满足成功条件。

文章作者: zyuan
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 zyuan !
评论
  目录