让长程智能体拥有可核验的状态
Published:
简短 TL;DR: 本期关注一个很实用的变化:更强的智能体不只是更长上下文模型,而是能生成任务、核验中间状态、保存证据、并从世界状态变化中学习的系统。我选了四篇近期开放全文论文:ClawGym 做可执行、可核验的电脑使用任务;World2VLM 把世界模型想象变成训练信号;DataPRM 让数据分析奖励模型进入环境检查步骤;OCR-Memory 则把长程历史保存成可光学检索的证据。
本期我在看什么
仓库里此前没有 Paper Radar 记录,seen 列表也是空的,所以这期我没有做“大而全”的新闻罗列,而是先建立一个可持续的基线。我按 agentic training、world models、大模型机理、文档智能和 data agents 搜索了 2026 年 4 月 27 日到 29 日的新论文,也交叉看了社区和中文科技媒体线索。Recursive Multi-Agent Systems、Programming with Data、DV-World、NVIDIA Nemotron 3 Nano Omni 等都值得继续追,但本期优先选择能从开放全文细读、图表和实验表格都比较完整的四篇。
这一组论文的共同问题是:长程智能体失败,往往不是因为“不会说”,而是因为状态不可见、不可查、不可核验。四篇论文分别从任务合成、世界模型蒸馏、过程奖励和长期记忆四个入口,把智能体状态变成更可审计的对象。
论文细读笔记
ClawGym: A Scalable Framework for Building Effective Claw Agents
作者: Fei Bai、Huatong Song、Shuang Sun、Daixuan Cheng、Yike Yang、Chuan Hao、Renyuan Li、Feng Chang、Yuan Wei、Ran Tao、Bryan Dai、Jian Yang、Wayne Xin Zhao
机构: 中国人民大学高瓴人工智能学院、IQuest Research、北京航空航天大学
日期: arXiv,2026 年 4 月 29 日
链接: arXiv,开放 HTML,论文中预告的项目链接

Figure 1 是理解这篇论文的入口,因为它把 ClawGym 展示成一个完整的数据工厂,而不是单独的 benchmark。流程从 persona-driven 和 skill-grounded 的任务来源开始,构造资源与 verifier,再经过质量筛选,最后形成训练和评测数据。需要谨慎的是,这张图对应的是 OpenClaw 风格的受控环境;它不能直接证明同样的合成流程能无损迁移到任意桌面或网页智能体场景。
图表线索: Table 6 对比了专有模型、开放权重前沿模型、Qwen 小模型基线和 ClawGym 微调模型在 ClawGym-Bench 与 PinchBench 上的表现。它支撑了“智能体专用交互数据能显著提升小模型”的主张,但要结合评测协议看,因为 ClawGym-Bench 对不同任务混用了代码检查和 rubric 判断。
一句话核心 idea: ClawGym 想解决的是个人智能体缺少大规模可执行任务、真实工作区和可靠 verifier 的问题。它用合成任务、混合核验、黑盒 rollout 轨迹和 SFT/RL,把“会在文件和工具里做事”变成可训练的对象。
我会优先看这篇的原因是,它没有把 agent training 简化成“换一个优化算法”。论文真正强调的是任务工厂和验证基础设施:如果没有可执行任务、真实资源和最终状态 verifier,所谓智能体训练很容易只是模仿几段脆弱 transcript。
方法可以拆成四步。第一,ClawGym-SynData 同时使用 top-down 的用户意图生成和 bottom-up 的技能组合生成,让任务既像真实用户请求,又覆盖文件、表格、脚本、搜索等操作原语。第二,每个任务都配套资源准备和验证设计:能机械检查最终文件时使用 code-based verifier,需要语义判断时使用 rubric,两者并存时做加权聚合。第三,作者在 OpenClaw harness 上用强模型做黑盒 rollout,并根据 verifier 分数筛选高质量交互轨迹。第四,用这些轨迹微调 Qwen3 系列 backbone,得到 ClawGym-Agents,并探索 sandbox-parallel 的轻量 RL。
关键证据比较完整。论文报告了 13.5K 个可执行合成任务、24.5K 条交互轨迹,以及一个经过人工辅助审核的 200 题 ClawGym-Bench。结果表中,ClawGym-4B、ClawGym-8B 和 ClawGym-30A3B 在 ClawGym-Bench 平均分分别达到 47.73、50.24 和 56.82,明显高于对应 Qwen 基线;ClawGym-30A3B 在该 benchmark 上还超过了更大的 Qwen3-235A23B。论文也报告了 Qwen3-8B 和 Qwen3-30A3B 在 PinchBench 与 ClawGym-Bench 上经过合成数据训练后的大幅相对提升。
我的判断是:这篇值得持续跟踪,但不要把结果读成“合成任务已经解决电脑使用智能体”。它的价值在于把环境状态、最终文件和 verifier 放到训练闭环中心;风险在于 benchmark-local optimization。下一步我最想看的是,这套任务合成和验证设计能否进入更混乱的真实用户环境,尤其是成功标准不容易归约成文件、表格或 checklist 的任务。
主题连接: 智能体训练、数据智能体、评测基础设施、可核验工具使用。
World2VLM: Distilling World Model Imagination into VLMs for Dynamic Spatial Reasoning
作者: Wanyue Zhang、Wenxiang Wu、Wang Xu、Jiaxin Luo、Helu Zhi、Yibin Huang、Shuo Ren、Zitao Liu、Jiajun Zhang
机构: 中国科学院自动化研究所、中国科学院大学人工智能学院、清华大学、哈尔滨工业大学、Wuhan AI Research
日期: arXiv,2026 年 4 月 29 日
链接: arXiv,开放 HTML,代码,数据集

Figure 2 把论文的核心论点讲得很清楚:用可控世界模型生成 action-aligned future view,再把每个状态转移变成 forward 与 inverse 空间任务,最后用 SFT 加 task-aware GRPO 后训练 VLM。它支撑的不是“推理时外挂世界模型”,而是“训练时把世界模型的想象蒸馏进 VLM 参数”。谨慎点在于,图中的每个下游标签都依赖教师世界模型是否真的生成了几何一致的转移。
图表线索: Table 2 是主结果,覆盖 SAT-Real、SAT-Synthesized、VSI-Bench 和 MindCube。Table 4 更适合细读,因为它拆开了 forward-only、inverse-only、双向监督,以及真实场景、模拟场景、混合来源训练的贡献。
一句话核心 idea: World2VLM 面向 VLM 的动态空间推理短板:模型能看懂静态图,却不擅长想象自己移动后场景如何变化。论文不在测试时调用世界模型,而是在训练时用世界模型生成的转移数据让 VLM 内化这种想象能力。
方法有三层。第一,从 anchor observation 和参数化相机轨迹出发,用 SVC、HY-WorldPlay 等教师世界模型生成未来视角。第二,把源图、目标图、动作、检测器元信息变成八类任务,覆盖运动反推、动作验证、目标定位、可见性判断、跨视角一致性等。第三,用约 103K 条混合来源记录对 Qwen2.5-VL-7B 做 SFT,再用 1K 平衡 refinement set 做 GRPO;奖励函数不是单一模板,而是按任务类型关注格式、数值精度、空间逻辑、序列一致性和框有效性。
实验最有说服力的地方是主结果和细粒度分解同时给出。Qwen2.5-VL-7B 基线四个 benchmark 平均分是 36.63;World2VLM-GRPO 用 SVC 作为教师时达到 52.07,用 HY-WorldPlay 时达到 52.61,而匹配 backbone 的 MindJourney-style 测试时世界模型 baseline 平均只有 38.65。SAT-Real 上,SVC-GRPO 从基线 44.67 提到 72.67。任务分解显示,egocentric movement、object movement、goal aim、action consequence、perspective taking 等类别都有明显提升,这让结果更像是真正在学 motion-conditioned reasoning,而不是一般视觉问答迁移。
我最看重的是消融。Forward-only 平均分到 43.44,inverse-only 到 41.46,bidirectional full SFT 到 46.75;混合来源训练也优于单独真实场景或模拟场景。这个设计模式很值得迁移:让模型同时学习“这个视角变化由什么动作导致”和“这个动作会导致什么视角变化”,比单方向监督更稳。
主要风险是教师质量。论文自己也讨论了:SVC 的相机几何控制更紧,但大视角变化时可能有局部伪影;HY-WorldPlay 更顺滑、更真实,但可能不够精确地保留相机运动。当前流程有规则过滤,但还没有 task-aware 的软置信度估计。我会把 World2VLM 看成训练时世界模型教师的一次强 proof-of-concept;下一步关键是多教师、可靠性加权和噪声感知蒸馏。
主题连接: 世界模型、多模态推理、智能体后训练、具身空间理解。
Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis
作者: Zhisong Qiu、Shuofei Qiao、Kewei Xu、Yuqi Zhu、Lun Du、Ningyu Zhang、Huajun Chen
机构: 浙江大学、蚂蚁集团
日期: arXiv,2026 年 4 月 27 日
链接: arXiv,开放 HTML,代码

Figure 3 说明 DataPRM 不是一个只读推理轨迹的分类器。它先通过多样化 trajectory generation 和知识增强 step annotation 构造过程监督数据,再使用能进入环境、调用工具并做 reflection-aware 打分的 verifier。图的核心含义是:数据分析任务的奖励模型不能只看文字推理,必须检查执行状态。
图表线索: Figure 2 值得看,因为它展示了通用 PRM 为什么失败:会惩罚可恢复的 grounding error,也会漏掉代码正常执行但逻辑错误的 silent error。Table 2 给出 ScienceAgentBench 和 DABStep 的 Best-of-N 主结果;Table 3 拆解环境交互、多轮检查和 ternary reward 的作用。
一句话核心 idea: DataPRM 认为数学推理式 PRM 并不适合数据分析智能体。数据智能体需要能运行探针、容忍探索性错误、并发现静默逻辑错误的过程 verifier。
论文的诊断很有用。Grounding error 可能是可恢复的:智能体猜错列名、收到异常、理解 schema,最后仍然完成任务。Silent error 则更危险:代码跑通了,但逻辑错了。通用 PRM 往往把前者惩罚得太重,又因为不进入环境而看不见后者。
DataPRM 的做法有三点。第一,它使用 ReAct 风格的生成式 verifier,可以调用工具并检查中间执行状态。第二,它把 step reward 从二值扩展成三值:错误、中性或探索性、正确。对数据分析来说,这一点很重要,因为 trial-and-error 不一定是失败。第三,它通过多样化轨迹生成和专家标注构造了超过 7K 条过程监督样本,并把 verifier 用在测试时扩展和强化学习中。
关键结果没有夸张,但方向清楚。以 Qwen3-235B-A22B-Instruct-2507 作为 Best-of-N 的基础 policy 时,4B DataPRM 在 DABStep 的 N=16 平均分达到 40.89,高于同表中的 majority vote 38.00 和 self-rewarding 39.77。摘要中还报告了它让下游 policy 在 ScienceAgentBench 和 DABStep 上分别提升 7.21% 与 11.28%。在 RL 实验中,过程奖励训练在 DABench 和 TableBench 上达到 78.73% 与 64.84%,超过 outcome-only reward 设置。
消融让结论更可信。普通 CoT verifier 在 DABStep N=16 平均分为 38.89;加入环境、多轮交互和 reflection-aware ternary reward 后,完整 DataPRM 到 40.89。提升不是巨大,但很符合直觉:对数据智能体来说,更好的 reward 来自检查世界,而不只是给文字打分。
我的保留意见是评测依赖。部分数据集需要 model-as-judge 评估开放答案,active verifier 也比单轮 judge 更耗 token 和延迟。即便如此,这篇值得继续追,因为它抓住了 data agent 的核心瓶颈:奖励模型必须区分“有用探索”和“真正语义失败”。
主题连接: 数据智能体、过程奖励模型、智能体训练、环境内核验。
OCR-Memory: Optical Context Retrieval for Long-Horizon Agent Memory
作者: Jinze Li、Yang Zhang、Xin Yang、Jiayi Qu、Jinfeng Xu、Shuo Yang、Junhua Ding、Edith Cheuk-Han Ngai
机构: 香港大学、北德克萨斯大学、筑波大学、延世大学
日期: arXiv,2026 年 4 月 29 日;ACL 2026 Main Conference
链接: arXiv,开放 HTML

Figure 1 很直接地说明了机制:把智能体历史渲染成多分辨率图像,用 Set-of-Mark 给片段加视觉锚点,模型只负责定位索引,原始文本再从日志中确定性取回。这支持了论文关于 faithful evidence recovery 的主张,但也清楚暴露了代价:系统把成本转移到了渲染、存储和专门的 optical retriever 上。
图表线索: Table 1 是 Mind2Web 与 AppWorld 主结果。Table 2 和 Table 3 分别看 SoM 与多分辨率 active recall 的消融。Table 6 和 Table 7 最实用,因为它们把检索质量、下游成功率、token、延迟和存储代价拆开了。
一句话核心 idea: OCR-Memory 不把长期记忆压缩成摘要,而是把历史保存为视觉证据,再用索引定位和日志回填实现精确恢复。它关心的不是“模型能不能大概想起”,而是“能不能把原始证据拿回来”。
方法分三步。第一,系统把交互轨迹渲染成 visual memory frame,并给区域加 SoM 锚点。第二,训练一个检索器,根据当前 query 给视觉片段打相关性分数。第三,被选中的索引映射回外部日志中的原文,再交给下游智能体。多分辨率策略负责让旧历史保持低成本压缩,并在被重新激活时恢复高分辨率。
证据覆盖面比较广。Mind2Web 上,OCR-Memory 的 element accuracy、action F1、step success rate 和 task success rate 分别为 53.8、59.2、46.1 和 4.8,高于 Retrieval、MemoryBank、AWM、ACON 等基线;AppWorld 平均成功率为 58.1。SoM 消融也很关键:去掉 SoM 改成文本生成后,element accuracy 降到 46.5,step success 降到 39.2,检索延迟还升到 5.3 秒;完整系统是 53.8、46.1 和 1.7 秒。
最有产品意义的是 token 预算分析。在 Needle-in-a-Haystack 风格测试中,OCR-Memory 相对 raw text 约有 10 倍视觉 token 压缩,同时 4K 上 Recall@1 为 98.5%,32K 上仍有 94.1%。在 Mind2Web experience-retrieval 子集上,Dense Text-RAG 的 Recall@1 是 52.7,OCR-Memory 是 78.6;MRR 从 0.61 提到 0.84。系统效率表也很诚实:每步注入下游 LLM 的文本 token 从 3,980 降到 596,但单 episode 存储从 18 KB 增加到 1.47 MB,检索延迟从 0.3 秒增加到 1.7 秒。
我的判断是,OCR-Memory 的价值在于它拒绝把 memory 等同于 summarization。对合规、调试和长流程来说,精确证据恢复比压缩摘要更重要。限制也很现实:需要微调、视觉存储、渲染和额外 retriever,所以它不是免费替代 Text-RAG。下一步我想看的是,当同一个 episode 里混有密集表格、代码 diff、截图和多语言文档时,optical memory 还能否保持同样的可靠性。
主题连接: 文档智能、智能体记忆、长上下文系统、可审计工作流。
阅读优先级和下期问题
如果目标是智能体训练基础设施,我会先读 ClawGym 和 DataPRM:它们都在把环境状态变成监督信号。World2VLM 对世界模型蒸馏最有启发,因为它改变了“想象”发生在系统中的位置。OCR-Memory 则最接近产品问题,因为它把 token、延迟和存储代价讲得很清楚。
下一期我想继续追三个问题:合成任务生成器是否会收敛出一套通用 verifier 形态;世界模型教师是否会从硬过滤走向可靠性加权;数据与文档智能体是否会从答案准确率,转向能经受真实部署审计的证据链。