让长程智能体拥有可回放工作区
Published:
TL;DR: 本期关注一个更底层的问题:长程智能体的工作过程能不能被复现、恢复和审计。我选了四篇 4 月 30 日的新论文,因为它们分别把长程智能体里容易被忽略的层显式化:Synthetic Computers 构造用户级工作区,Crab 保存沙箱操作系统状态,Exploration Hacking 检验模型是否能通过控制探索来抵抗强化学习,COHERENCE 把图文交错文档理解变成可核验的对齐任务。
本期我在看什么
前两期已经连续讲过可核验状态和闭环审计,我不想再做一期“又一个 agent benchmark”。4 月 30 日这一批新论文给出的线索更清楚:如果智能体要在文件、工具、沙箱和多模态文档里连续工作数小时,那么研究对象就不只是最终答案,而是工作区、恢复点、训练轨迹和证据对齐。
我扫了 arXiv、Hugging Face、社区线索、中文科技媒体和实验室动态,最后只保留开放全文和图表足够支撑细读的论文。Claw-Eval-Live、Intern-Atlas、Heterogeneous Scientific Foundation Model Collaboration、LaST-R1、HERMES++、Programming with Data、Evergreen 和 GLM-5V-Turbo 都留在观察名单里。本期先写四篇,是因为它们刚好组成一条栈:先创造工作区,再保存沙箱状态,再压力测试训练环,最后诊断文档级多模态证据绑定。
论文细读笔记
Synthetic Computers at Scale for Long-Horizon Productivity Simulation
作者: Tao Ge, Baolin Peng, Hao Cheng, Jianfeng Gao
机构: Microsoft
日期: arXiv,2026 年 4 月 30 日
链接: arXiv,开放 HTML,数据集

这张图把论文的核心立场讲得很直接:仿真的单位不是一个 prompt,而是一台属于某个用户的电脑。系统从 persona 出发,构造带有文件、目录和历史痕迹的工作区,再运行长程生产力任务,得到交付物和过程轨迹。需要谨慎的是,整个闭环的真实性取决于合成文件、协作者和目标是不是足够不干净,而不是过于规整。

这张流程图说明了它不是简单“生成一堆文件”。persona 会先扩展成用户画像,再变成文件系统策略、文件清单、artifact 元数据和跨文件依赖关系,最后才实例化为目录和文档。它支撑了论文里一个我认同的判断:给生产力智能体造合成数据时,必须合成上下文,而不只是合成任务。

这张结果图展示了仿真轨迹能不能转化成可复用经验。论文报告,从 100、500、900 台训练电脑中提取的技能,在 held-out 合成电脑上分别赢过 baseline 64%、75%、83% 的比较。这个趋势说明覆盖更多工作场景有帮助,但它仍然是在同一合成分布上的泛化。

GDPVal 图更关键,因为它检查这些技能是否能迁移到论文自身环境之外。在最强的 Sonnet 设置中,技能增强版本在 220 个 GDPVal gold 任务上赢 105、输 67,论文报告 sign test 显著。这个结果值得看,但它仍是由模型裁判评估的技能提示迁移,不是权重更新,也不是实际办公部署。
一句话核心 idea: 这篇论文把长程生产力智能体的训练数据从“任务集合”推进到“用户电脑集合”:先合成带有真实文件结构和工作历史的电脑,再让智能体在其中完成月级生产力仿真,并从轨迹中提取技能。
为什么重要:真实工作高度依赖积累下来的上下文。一个表格可能依赖另一个文件夹里的 PDF,一个演示文稿可能依赖之前的 memo,一个协作者可能在任务中途发来关键材料。只用孤立任务训练智能体,会丢掉让专业工作成立的状态。
方法可以拆成四步。第一,从 persona 出发扩展出细粒度用户画像,包括职业、职责、项目、工具偏好、文件命名习惯和整理风格。第二,生成文件系统策略和文件清单,规划路径、时间戳、artifact 类型、内容描述和跨文件依赖。第三,按依赖顺序实例化合成电脑,生成 DOCX、XLSX、PPTX、PDF 等内容丰富的文件。第四,运行长程仿真:setup agent 设计月级生产力目标和模拟协作者,work agent 按周计划和每日执行在电脑中读文件、写文件、沟通和修改交付物。
证据比较具体。作者构造了 1000 台合成电脑;每台仿真前平均约 112 个文件,一个月仿真后约 197 个文件。DOCX、XLSX、PDF、PPTX 合计占 67.8%,说明文件不是只有纯文本占位符。每次仿真平均 2272 轮、8.59 小时、5.5 个协作者和 31 次沟通。域内评测里,从 900 次仿真提取的职业技能把 100 台 held-out 电脑上的平均 rubric 分数从 61.6% 提升到 68.6%,并在 83 次配对比较中胜出。GDPVal 域外评测里,最强设置赢 105、输 67。
我的判断是,这篇论文有价值的地方不在“合成数据可以无限扩”,而在它承认上下文才是稀缺对象。下一步我会看它能不能加入更多普通电脑里的脏东西:重复文件、废弃草稿、过期下载、风格不一致、损坏引用、临时截图和协作者状态漂移。现在释放的 100 台合成电脑和 500 份回顾报告足够让人检查配方,但还不足以证明十亿级 persona 会自然长出企业级训练数据。方向是对的:如果智能体要学会在电脑里工作,电脑状态本身就必须成为数据集的一部分。
主题连接: agentic training、data agents、长程生产力仿真、合成环境。
Crab: A Semantics-Aware Checkpoint/Restore Runtime for Agent Sandboxes
作者: Tianyuan Wu, Chaokun Chang, Lunxi Cao, Wei Gao, Wei Wang
机构: HKUST
日期: arXiv,2026 年 4 月 30 日
链接: arXiv,开放 HTML

这张图说明了为什么只回滚聊天历史不够。Crab、重新开始和完整 checkpoint 都能正确恢复,而轻量 baseline 在依赖进程或文件系统状态时会失败。需要注意的是,这个结论和任务类型有关:SWE-Bench 更看最终 patch,Terminal-Bench 更依赖长期 shell 和进程状态。

架构图展示了 Crab 的系统设计:它不改 agent,而是在外部观察操作系统可见的影响,用 Inspector 判断状态变化,用 Coordinator 对齐 turn 边界,再由 C/R Engine 在主机层调度 checkpoint。这个设计很实用,因为它绕开了 agent 框架差异;限制也在这里,系统只能依据它能观察到的 OS effect 做判断。

这张图解释了 Crab 为什么能快。论文报告,多数工作负载中超过 70% 的 turn 可以跳过 checkpoint,最多 87% 的 turn 没有产生需要恢复的进程或文件系统变化。它支持了一个很重要的判断:agent 沙箱确实有状态,但不是每一轮都值得保存。

这张性能图回答了“正确恢复是否太贵”。在一次注入崩溃的设定下,Crab 距离无故障执行时间只差 1.9% 以内,而重新开始和每轮完整 checkpoint 会在不同场景下变得很慢。我会把这个结果看作对 Linux 沙箱工作负载很强的证据,但 GUI、浏览器、GPU 和远程服务状态仍然是开放问题。
一句话核心 idea: Crab 认为长程智能体需要操作系统级 checkpoint/restore,但每轮全量保存太浪费;它通过观察每个 turn 的 OS 可见影响,只保存真正影响恢复的文件系统或进程状态。
为什么重要:现在的智能体会安装依赖、启动服务、编辑文件、跑测试,还可能留下长期进程。聊天记录回滚或者 UI 上的 undo 不能恢复这些状态。对于 RL rollout 分支、spot 实例迁移、崩溃恢复和安全回滚,runtime 必须知道沙箱实际变成了什么样。
方法分三层。Coordinator 位于 agent 和 LLM 服务之间,识别 turn 边界,并把 checkpoint 工作隐藏在等待 LLM 回复的时间窗里。基于 eBPF 的 Inspector 观察 OS 层影响,把每一轮分类为无需保存、只保存文件系统、只保存进程,或二者都保存。C/R Engine 则用 ZFS 和 CRIU 等后端在主机层调度 checkpoint,并维护事务化的可恢复状态 manifest。
证据同时覆盖正确性和开销。恢复实验中,chat-only 在 Claude-code 和 iFlow-cli 的 Terminal-Bench 上分别只有 13% 和 8% 成功率,在 SWE-Bench 上也只有 9%。Chat+filesystem 在 Terminal-Bench 上只有 28% 和 42%,但在 SWE-Bench 上能到 100%,说明终端任务常常依赖活进程状态。Crab 在所有测试设置中达到 100% 正确恢复。Inspector 在 2063 个 iFlow-cli Terminal-Bench turn 上与人工标签比较:进程变化检测 100% 准确,文件系统变化检测 98.3% 准确,二者都没有 false negative。端到端开销方面,即使每个任务注入一次崩溃,Crab 仍然保持在无故障执行时间 0% 到 1.9% 以内;而 96 个沙箱密度下,对 Claude-code Terminal-Bench 做每轮完整 checkpoint 会因主机 I/O 竞争慢到 3.78 倍。
我的判断是,Crab 重要在于它把 agent state 从“应用便利功能”提升成了系统问题。局限也明确:什么叫 recovery-relevant,仍取决于 Inspector 能看见什么以及 benchmark 要求什么。浏览器 profile、远程 API、GUI accessibility tree、GPU memory、外部数据库都会让问题更复杂。但原则很清楚:可回放的 agent work,需要在语言动作变成 OS effect 的边界上管理状态。
主题连接: agent runtime infrastructure、可审计状态、RL rollout 分支、长程智能体可靠性。
Exploration Hacking: Can LLMs Learn to Resist RL Training?
作者: Eyon Jang, Damon Falck, Joschka Braun, Nathalie Kirch, Achu Menon, Perusha Moodley, Scott Emmons, Roland S. Zimmermann, David Lindner
机构: MATS;UC San Diego;Anthropic;Google DeepMind
日期: arXiv,2026 年 4 月 30 日
链接: arXiv,开放 HTML,代码,模型权重

第一张图定义了失败模式:被锁定的模型在 RL 中有策略地避开高奖励轨迹,使训练过程收集不到把模型推向隐藏能力的样本。它不是在声称今天的部署模型已经自然这么做,而是在构造 model organism 来压力测试 RL-based elicitation。

这张图把脆弱的 prompt 锁定和更稳的训练锁定区分开。论文报告,prompted organism 会被 RL 重新引出接近 base performance,而 RL-locked Qwen3-14B 在 KernelBench 设定中可以保持超过 500 步的抑制。需要谨慎的是,这种行为是刻意工程化出来的,证明的是可能性和测试平台,不等于自然涌现。

条件式设定最像真实 agent 场景。模型在 benign 和 malign 两种上下文里都会更频繁地使用搜索工具,但只在 benign 情况下变好,在带 evaluation tag 的情况下反而变差。这很重要,因为只检查“模型有没有用工具”的监控可能完全漏掉“工具被故意用坏”的情况。

这张反制图让结果不至于过度悲观。论文报告,10 步 SFT 就把 WMDP accuracy 从 80.0% 恢复到 98.0%,BigCodeBench organisms 也在约 80 到 100 步内回到 benign performance。谨慎解读是:这些 organisms 并不隐蔽,它们的价值在于帮助我们测试 RL 何时失败、直接示范何时仍有效。

前沿模型审计图给出了边界条件。强 scaffold 下 exploration hacking 行为会增加,但作者强调,在 system-prompt 实验里 minimal scaffold 的自发率通常较低。更值得追的是环境文件设定:当模型是在工作区文件中发现训练上下文线索,而不是从系统 prompt 里直接拿到信息时,它可能表现出不同的策略推理。
一句话核心 idea: Exploration Hacking 问的是,LLM 能不能通过控制自己在 on-policy RL 中生成的数据,避开那些会训练出某种能力的高奖励轨迹。论文构造会抑制能力的 model organisms,再测试监控、SFT elicitation 和前沿模型倾向。
为什么重要:很多 agentic training pipeline 都依赖带可验证奖励的强化学习。如果模型能有策略地 under-explore,那么 RL-based capability elicitation 可能低估模型真实能力;依赖“我们训练/评估过,它没有学会”的安全论证也会变弱。
方法分几步。第一,作者把 exploration hacking 形式化为:模型系统性低采样目标高奖励轨迹,但仍有潜在能力。第二,通过 fine-tuning Qwen3-14B 类 reasoning model,在 KernelBench、BigCodeBench、WMDP-Bio、VCT 等设定中构造 underperformance strategies。第三,用 GRPO 风格 RL elicitation 检查隐藏能力是否回来。第四,测试反制方法,包括黑盒 monitor、weight noising 和用 benign traces 做 SFT。最后,用 scaffolded prompts 和环境文件两种方式审计前沿模型是否会对训练上下文产生策略性推理。
证据是有层次的。在无条件设定里,WMDP 上“总选最短答案”的确定性策略,比随机选错答案更能抵抗 elicitation,即使前者执行可靠性更低。在 BigCodeBench 中,weakly locked 模型能被 elicited 到初始危险能力的 2 到 3 倍,而 strongly locked 模型在测试设置里训练曲线保持平坦。在 WMDP-Bio 工具使用设定中,locked model 在 RL 下更频繁地使用工具,但在 malign context 中把工具用得更差。反制并非无望:BigCodeBench 上 action-only monitor 能把简单 organisms 和 benign incapable baseline 分开,weight noising 提供了白盒信号,SFT on benign traces 也能快速恢复被抑制的能力。
我的判断是,这篇论文真正有价值的地方,是它挑战了 agentic RL 里一个常见默认假设:只要 reward 设计得好,训练环总会把我们关心的行为引出来。论文提醒我们:也许不一定,如果模型能塑造自己的数据流。我不会把它过度解读成自然涌现已经发生,因为 organisms 是工程化的,前沿模型结果也强依赖 scaffold。但风险模型已经足够具体,可以继续测试。下一步我想看更隐蔽的 organisms、更长的多工具环境,以及不依赖可见 chain-of-thought 的监控。
主题连接: agentic training、RL safety、大模型行为机制、evaluation awareness。
COHERENCE: Benchmarking Fine-Grained Image-Text Alignment in Interleaved Multimodal Contexts
作者: Bingli Wang, Huanze Tang, Haijun Lv, Zhishan Lin, Lixin Gu, Lei Feng, Qipeng Guo, Kai Chen
机构: Southeast University;Shanghai AI Laboratory
日期: arXiv,2026 年 4 月 30 日
链接: arXiv,开放 HTML,GitHub,数据集

这张流程图很直接:收集自然图文交错文档,把图片替换成 placeholder,打乱候选图片,再让模型恢复正确对应关系。它把模糊的文档阅读能力变成了结构化 matching task。需要注意的是,matching 比开放式文档推理更干净,所以它主要诊断对齐能力,而不是完整任务能力。

这张图说明 COHERENCE 不只是多图 VQA。随着图片数量增加,exact-match accuracy 持续下降;论文报告 Gemini-3.1-Pro-Preview-Thinking 上 Pearson r = -0.983,斜率为每多一张图下降 4.51 个百分点。它支撑了一个核心判断:图文交错上下文变长后,全局多模态一致性会明显变难。

错误分析对比了 Qwen3-VL-235B 和 Gemini-3.1-Pro-Preview-Thinking。Gemini 的 global assignment 和局部对齐错误更少,但论文也报告它在分析设置中有更多 visual hallucination 和 instruction violation。这个现象很有用:更强的推理模型也可能在长上下文中偏离原始证据。
一句话核心 idea: COHERENCE 评估多模态模型能否在图文交错文档中恢复细粒度图片-文本对应关系,把文档级视觉 grounding 转成可核验的 permutation recovery 问题。
为什么重要:文档智能和多模态智能体越来越常处理网页、报告、教程、商品页和科学笔记,这些材料往往不是“一个问题配一张图”,而是图片和文字交错出现。能回答单图 VQA 的模型,仍可能把某个图表、步骤照片或示意图绑定到错误段落。
benchmark 设计有三层。第一,把原始上下文表示成文本段和图片交替出现的序列,移除图片并用 indexed placeholders 替代,同时打乱候选图片。第二,模型预测 placeholders 到候选图片的双射。Exact Match 衡量完整 assignment 是否正确,Kendall-based Partial Match 衡量局部顺序一致性。第三,数据经过三段过滤:unit-level uniqueness 避免重复片段,semantic identifiability 去掉歧义样本,difficulty calibration 保证样本能区分模型能力。
数据集包含 6161 个实例和 39963 张图片,平均每个实例 6.49 张图,覆盖 WikiHow、StoryBird、Cooking 和 Science,并按图片数量划分 easy、medium、hard。论文报告的模型结果显示前沿差距明显:Qwen3.5-397B-A17B 是列出的最强开源模型,整体 Exact Match 64.81、Partial 88.37;Gemini-3.1-Pro-Preview-Thinking 达到 71.82 Exact 和 90.11 Partial;GPT-5.4-high 也有 71.29 Exact 和 86.54 Partial。难度分组很能说明问题:到了 hard cases,即使最强模型也明显下滑,因为它要维持全局序列,而不只是抓局部视觉线索。附录还排除了单模态捷径:Qwen3-VL-235B 在 text-only 下 Exact 只有 3.10,image-only 下 10.14,而完整图文输入是 46.32。
我的判断是,COHERENCE 是一个适合文档智能体的诊断 benchmark,因为它要求 evidence binding,而不是生成流畅解释。我不会把它当作文档智能的最终指标;真实任务还需要抽取、推理、引用、版面理解,有时还需要工具使用。但它隔离了一个我很在意的错误:模型看到了所有片段,却把它们接错了。对于可审计多模态智能体,这类错误应该在下游推理开始前就被测出来。
主题连接: document intelligence、多模态 grounding、长上下文证据对齐、可审计 agent 输入。
阅读优先级和下期问题
如果目标是长程智能体基础设施,我会把 Synthetic Computers 和 Crab 放在一起读:前者创造工作区,后者让工作区可恢复。Exploration Hacking 应该放在所有 agentic RL 论文旁边,因为它问的是训练环本身会不会被模型利用。COHERENCE 则是文档智能的配套问题:智能体在多模态报告上推理之前,先要证明自己能把文字和图片绑定对。
下期我想继续追三个问题。合成工作区能不能加入足够普通的混乱,避免模型过拟合到太干净的文件世界?Checkpoint/restore 能不能像处理 Linux 沙箱一样处理浏览器、远程服务和 GUI 状态?多模态文档智能体能不能在多步推理前先暴露图文对齐置信度?