让长程智能体会规划、会分工、也会验引文

4 minute read

Published:

TL;DR:本期看长程智能体如何摆脱单一 reactive loop。StraTA 让 agent 在执行前先生成全局策略,并把后续动作都放在这个策略下训练;RAO 把递归 subagent 变成可训练的推理时扩展机制;引文归因评测论文则检查 deep research 报告里的引用是否真的支撑旁边那句话。

本期我在看什么

最近几期一直在看可复用状态:技能、检索词、记忆潜变量、workboard、证据账本。这次我想往外走一步:有了状态以后,谁来决定长任务里怎么用这些状态?什么时候继续执行,什么时候拆给子智能体,什么时候不能再信一个看似正常的引用?

检索时 arXiv API 还没有显示 2026 年 5 月 8 到 9 日新的 CS 批次,所以我没有硬凑“今天”的论文,而是留在 5 月 7 日这个三天窗口内。初筛候选包括 STALE、Tool-Integrated Reasoning、AI-native work 的执行谱系、Constraint Decay、LatentRAG、OBLIQ-Bench、Data Language Models、机器人 world model latent、world-action model 自适应执行、可逆 SFT 行为、SoftSAE、ScaleLogic、StraTA、RAO、BAMI,以及 deep research agent 的 source attribution 评测。最后只选 3 篇,因为它们都有开放全文、图表可读,而且能围绕一个清楚问题展开:长程 agent 的工作怎样才能被规划、被分工、被审计?

论文细读笔记

StraTA:用战略级轨迹抽象训练长程智能体

作者:Xiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin。
机构:The Chinese University of Hong Kong;Shanghai Artificial Intelligence Laboratory;University of Georgia;University of Oxford;Shenzhen Loop Area Institute。
日期/会议:2026 年 5 月 7 日,arXiv 预印本。
链接:arXiv | PDF

StraTA 对比图

这张图给出了论文的核心诊断。reactive agent 每一步既要决定下一步动作,又要隐式决定整条路径,所以局部错误很容易变成来回试错和行为不一致。StraTA 在 rollout 之前先插入一个紧凑策略,后续每一步动作都在这个策略条件下生成。需要谨慎的是,这个策略仍然是自然语言;如果策略本身很虚,后续动作也会继承这种虚。

StraTA 框架

读方法时我会一直看这张框架图。StraTA 对同一个任务采样多个策略,每个策略下再跑多条轨迹,于是训练时既能比较不同策略,也能比较同一策略下的执行好坏。多样策略 rollout 用 strategy embedding 上的 farthest point sampling;critical self-judgment 则标出既不遵守策略、也不推进任务的动作。这里的核心不是“模型学会了完美规划”,而是 rollout 的信用分配终于有了结构。

StraTA 消融曲线

消融曲线说明额外机制并不是装饰。只加入 strategy conditioning 的 vanilla 版本已经超过 GRPO,但 diverse strategy rollout 和 self-judgment 让收敛更快也更稳。这支持了一个较窄但重要的结论:strategy object 可以成为训练抓手。它还不能证明同样机制在混乱工具 API、部分可观测工作流或企业私有环境里也稳定。

一句话核心 idea:StraTA 把长程 agent rollout 拆成两层训练问题:先生成轨迹级策略,再训练动作在这个策略下执行。

为什么重要:很多 agentic RL 仍然把最终轨迹奖励平均摊到每一步。这对长任务太粗了。如果一开始计划就错,后续动作的惩罚会很噪;如果计划不错但某一步失败,也不应该把计划级信用全部打掉。StraTA 的价值在于把“计划”显式变成可训练对象。

方法拆解:

  1. 从初始状态生成自然语言策略,再让每一步动作同时条件于固定策略和当前状态:

    \[z \sim \pi_\theta(\cdot \mid s_1), \qquad a_t \sim \pi_\theta(\cdot \mid z, s_t).\]
  2. 对每个任务采样多个策略,每个策略下采样多条 rollout。这样既能做 strategy-level 比较,也能做同一策略下的 action-level 比较。
  3. 用某个策略下表现最好的部分 rollout 来估计策略质量,避免一个策略因为单次执行失败就被整体否定。
  4. 加入两个辅助机制:farthest-point sampling 保证策略语义多样性;self-judgment 给不遵守策略或不推进任务的步骤加辅助惩罚。

关键证据:

设置PPOGRPOGiGPOStraTA
ALFWorld success,Qwen2.5-7B87.477.190.893.1
WebShop success,Qwen2.5-7B68.968.272.884.2
SciWorld overall,Qwen2.5-7B51.441.8未报告63.5
Qwen2.5-3B 消融ALFWorld successWebShop success
Vanilla strategy version79.064.0
只用 diverse strategy rollout87.964.6
只用 self-judgment81.966.7
完整 StraTA88.673.4

这些数字让这篇不只是 prompt 工程。7B 设置下,WebShop 相比 GiGPO 的提升很明显;消融也把“探索到更多策略”和“给步骤级反馈”这两件事分开了。不过我不会把这些 benchmark 分数直接当成部署证据。ALFWorld、WebShop、SciWorld 仍是受控环境,而且训练时采样了多组策略和轨迹。

我的判断:我会看这篇,是因为真实 agent trace 里经常不是“模型不知道下一步该干什么”,而是“模型已经丢了整条任务线索”。strategy 变量让训练循环有机会在最终答案出错之前修理这个问题。

局限和问题:self-judgment 可能变成另一个由模型偏好塑造的奖励通道,因此我更想看到人类或环境侧对被惩罚步骤的审计。策略用自然语言反复 prepend,也未必是隐藏状态、工具变化、证据冲突场景下最好的表示。下一步值得问:策略质量能否由环境 artifact 验证,而不只是由 rollout outcome 和模型自评验证?

关联主题:agentic training、长程信用分配、结构化中间状态、工具智能体。

Recursive Agent Optimization:训练模型学会递归分工

作者:Apurva Gandhi, Satyaki Chakraborty, Xiangjun Wang, Aviral Kumar, Graham Neubig。
机构:Carnegie Mellon University;Amazon AGI Labs。
日期/会议:2026 年 5 月 7 日,arXiv 预印本。
链接:arXiv | PDF

RAO 递归执行树

这张图提醒我们,递归不只是“多叫几个 agent”。root agent 可以生成子任务,子 agent 又可以继续生成子任务,每个节点都有更窄的任务和独立上下文。RAO 的关键是用同一个共享 policy 训练整棵树。模型学的不只是回答问题,也包括什么时候值得把问题拆给一个新的 agent 实例。

RAO 奖励设计

奖励设计是这篇的技术中心。每个节点都获得自己的成功奖励,并从子节点成功中获得 delegation bonus,因此奖励不只在 root answer 处进入系统。递归 rollout 会产生许多中间任务;如果只看最终答案,这些中间任务的质量几乎不可见。谨慎点在于,local reward 依赖环境是否能为被拆出来的任务定义成功信号。

RAO DeepDive 结果

这张图把 tradeoff 放得很清楚。DEEPDIVE 上递归 agent 把 held-out success 从 0.24 提到 0.40,但在双方都解出的任务上,耗时也大幅增加。这不是附带细节,而是说明 recursion 本质上是一种 test-time compute allocation。遇到需要深入拆解的任务会有帮助;遇到强顺序依赖且难以并行的任务,成本会很高。

RAO 深度分布

我最喜欢这张深度分布图。简单任务使用浅递归,较难的 TEXTCRAFT-SYNTH 任务会推到更深层级。这支持了一个重要判断:RAO 不是机械地把所有任务塞进固定多 agent 模板。当然,深度适应不等于子任务一定拆得好;我还想看更多失败 delegation 的具体分析。

RAO 消融曲线

消融图拆开了两个机制:节点级 dense reward 和按深度做 inverse-frequency weighting。Dense weighted 曲线最好,这很合理,因为递归树会产生大量深层节点,如果不加权,训练更新可能被深层 rollout 淹没。这张图比 headline benchmark 更直接地支撑了优化设计。剩下的问题是,如果子任务奖励很噪或延迟很长,这套设计会有多敏感。

一句话核心 idea:RAO 把递归 delegation 放进 policy 训练,让 subagent 不再只是固定脚手架,而是模型学会使用的一种推理时扩展行为。

为什么重要:subagent 已经出现在 coding、research、data analysis 工具里,但很多系统只是把它作为产品功能或编排模式暴露出来。RAO 问的是更难的问题:模型能不能学会什么时候分工、怎么写子任务、以及怎么合并子任务输出?

方法拆解:

  1. policy 在 root task 上执行,过程中可以调用类似 launch_subagent 的动作生成子任务;子 agent 也可以继续生成子任务,于是形成动态执行树。
  2. 整棵树都使用同一个 policy,因此 root、internal node、leaf node 不是人工定义的不同角色,而是一起优化的同一模型。
  3. 每个节点使用 local reward:

    \[R(X,\tau_X) = \tilde{s}(X,\tau_X) + \lambda \frac{1}{|C(X)|}\sum_{c \in C(X)}\tilde{s}(c,\tau_c),\]

    第二项用子节点成功奖励有用的 delegation。

  4. advantage 用 root rollout reward 的 leave-one-out baseline 计算,再用 depth-level inverse-frequency weighting 避免深层子任务过多时主导更新。

关键证据:

Benchmark sliceSingle agentRecursive agent
TEXTCRAFT-SYNTH,8K train/eval,all success0.240.95
TEXTCRAFT-SYNTH,8K train/eval,hard success0.000.88
TEXTCRAFT-SYNTH,40K train/256K eval,all success0.730.96
TEXTCRAFT-SYNTH,40K train/256K eval,hard success0.200.88
Benchmark sliceSingle agentRecursive agent
OOLONG-REAL average reward0.2030.320
OOLONG-REAL,175K-token bucket reward0.1290.249
DEEPDIVE held-out success0.240.40
DEEPDIVE common-solved wall-clock time13.3 s233.0 s

最强的证据不只是“递归赢了”。更重要的是,在 TEXTCRAFT-SYNTH 上,8K context 的递归模型几乎恢复了大 context 递归模型的大部分能力,而且 hard tasks 没有崩掉。OOLONG-REAL 给了更贴近长上下文聚合的证据。DEEPDIVE 则是警告:递归有时是在用更多 wall-clock time 买成功率。

我的判断:这篇把 delegation 变成了可测量对象。我不希望 subagent 只是一个偶尔有用、偶尔产出一堆未合并笔记的 UI 功能。RAO 至少给训练循环提供了奖励子任务成功和塑造 delegation depth 的方式。

局限和问题:实验环境需要 local success signal,但真实研究或代码任务里,子任务是否成功往往要到很后面才知道。递归 rollout 在 OOLONG-REAL 和 DEEPDIVE 上消耗更多 token,所以成本收益强依赖任务形态。下一步我最想看 failure attribution:递归失败时,错在 root 拆分、child prompt、child execution,还是最终 synthesis?

关联主题:agentic training、多智能体分工、长上下文扩展、process reward、数据/研究智能体。

Cited but Not Verified:检查 deep research agent 的引用是否真的支撑论断

作者:Hailey Onweller, Elias Lumer, Austin Huber, Pia Ramchandani, Vamse Kumar Subbiah, Corey Feld。
机构:Commercial Technology and Innovation Office, PricewaterhouseCoopers, U.S.
日期/会议:2026 年 5 月 7 日,arXiv 预印本。
链接:arXiv | PDF

Source attribution 评测框架

这个框架的优点是简单。deep research agent 生成带引用的 Markdown 报告,AST parser 抽取 claim-citation pair,系统抓取被引用页面,然后分别评估链接是否可访问、内容是否相关、事实是否被支持。关键是它检查 citation 和真实 cited content 的绑定,而不是检查模型自信度或孤立 claim。需要谨慎的是,Relevant Content 和 Fact Check 仍使用 LLM judge,虽然作者对 Fact Check 做了人工校准。

搜索深度与事实支持下降

这张搜索深度曲线解释了为什么这篇适合放进 agent digest。更多 tool call 并不自动带来更可靠报告。两个被测 frontier model 随着工具调用数上升,事实支持率下降,而链接可访问性和主题相关性仍保持很高。这正是最危险的研究 agent 失败形态:链接能打开,页面也相关,但旁边那句话并没有被来源支持。

一句话核心 idea:论文在 claim-source 粒度评测 deep research 引用,说明“链接可用且主题相关”并不等于“引用支撑了具体事实”。

为什么重要:deep research agent 很容易因为“有很多引用”而获得不该有的信任。引用只有在把附近论断绑定到证据时才有价值。这篇对 Paper Radar 本身也有提醒意义:Markdown 报告应该被当成结构化 artifact,而不是纯文本 blob。

方法拆解:

  1. 用带 web search 的 agent 为研究问题生成带内联引用的 Markdown 报告。
  2. 用 AST pipeline 把 Markdown 解析成 attribution document:规范化文本、剥离 code block、抽取 citation node、拆分 claim,并把 citation 往前绑定到对应句子。
  3. 抓取每个 cited URL,并对每个 claim-citation pair 评估三个维度:Link Works、Relevant Content、Fact Check。
  4. 在 DeepResearch Bench 和 BrowseComp 的 130 个 query 上评测 14 个模型,再对 GPT-5.4 和 Claude Opus 4.6 把搜索深度从 2 个 tool call 扩到 150 个 tool call。

关键证据:

模型SuccessLink WorksRelevant ContentFact Check
Claude Opus 4.590.0%98.7%95.7%76.8%
GPT-5.4100.0%100.0%93.7%47.7%
GPT-5.2100.0%98.3%92.3%58.8%
Claude Sonnet 4.693.3%99.2%89.8%58.7%
GPT-5 Mini100.0%99.3%87.4%38.9%
Gemini 3.1 Pro90.0%94.1%80.7%48.5%
OSS-120B40.0%83.9%68.7%24.4%
搜索深度GPT-5.4 Fact CheckClaude Opus 4.6 Fact Check
2 tool calls78.6%80.0%
50 tool calls38.0%61.2%
150 tool calls16.7%57.9%

第一张表让人不太舒服:很多模型的链接指标都很好,但 Fact Check 低很多。也就是说,用户几乎总能点开一个相关页面,却不能因此相信旁边的具体事实。第二张表把 information overload 说得更具体:GPT-5.4 的事实支持率随搜索深度急剧下降,Claude Opus 4.6 更稳,但也在下降。

我的判断:这是我希望 research agent 自带的一层审计。它把“链接存在”与“来源支撑这句话”分开了。对科学综述、市场研究、法律研究,以及会被另一个 agent 复用的报告来说,这个区别非常实际。

局限和问题:评测依赖当时网页可访问性,而 URL 会失效或内容变化。Fact Check 虽经人工校准,但仍是 LLM-as-judge,不是最终真值机。论文也主要研究公共 web search;如果换成企业私有 RAG,权限、版本、内部文档引用会让问题更难。

关联主题:document intelligence、deep research agent、引用验证、可审计证据、data agent。

阅读优先级和下期问题

如果只先读一篇,我会从 RAO 开始,因为递归分工已经在真实 agent 产品里出现,而这篇给的是训练目标,不只是界面模式。StraTA 适合接着看,它回答长程 rollout 的信用分配问题。引文归因这篇则最接近生产工作流,因为它给出了一个很具体的检查:生成的研究报告到底值不值得信。

后面我会继续追这几个问题:

  1. 策略质量和 delegation 质量能否由环境 artifact 验证,而不只靠模型自评或最终分数?
  2. 递归 agent 能否输出 blame trace,把坏拆分、坏子任务执行、坏 synthesis 分开?
  3. citation-level 评测能否迁移到带版本和权限控制的私有文档库?
  4. 从本期初筛看,STALE、LatentRAG、OBLIQ-Bench、Constraint Decay 和 world-action model 相关论文仍值得下期回看,尤其适合记忆新鲜度、检索和世界模型可靠性主题。