从可执行软件世界到物理结构化世界模型

5 minute read

Published:

TL;DR:本期关注的是智能体训练和评测里的“世界”到底有多可靠。EnvFactory 自动合成可执行、可验证的工具环境,用来训练 tool-use agents;OpenComputer 把桌面软件任务做成可以读取真实应用状态的 verifier-grounded software worlds;PH-Dreamer 则把 Port-Hamiltonian 物理结构放进视觉世界模型,让 latent imagination 不只追奖励,也要更接近能量和运动约束。

本期我在看什么

最近几期一直在写“行动之前先检查”:探索 checkpoint、证据图、trace 诊断、状态表面。这条线仍然重要,但如果每期都只讲可见中间状态,容易变成同一个判断的重复。本期我换了一个更具体的问题:智能体所处的环境、奖励和内部模拟器本身,能不能被构造成更可靠的训练对象?

最后选了三篇 2026 年 5 月 18-19 日的 arXiv 论文。EnvFactory 关注 tool-use agent 的训练环境和轨迹质量;OpenComputer 关注 computer-use agent 的可验证桌面软件世界;PH-Dreamer 不是 LLM agent 论文,但它追问世界模型的 latent dynamics 是否应该带物理结构。我会优先用论文图解释机制,密集数字表则重写成 Markdown,避免小字截图影响阅读。

论文细读笔记

EnvFactory:用可执行工具环境训练智能体

作者:Minrui Xu、Zilin Wang、Mengyi Deng、Zhiwei Li、Zhicheng Yang、Xiao Zhu、Yinhong Liu、Boyu Zhu、Baiyu Huang、Chao Chen、Heyuan Deng、Fei Mi、Lifeng Shang、Xingshan Zeng、Zhijiang Guo
机构:LARK, HKUST(GZ);University of Cambridge;UCL;Huawei Technologies Co., Ltd
日期:2026-05-18
链接:arXivarXiv HTML

一句话核心 idea:EnvFactory 自动构造可执行、可测试、带状态的工具环境,并生成更像真实用户请求的多轮训练轨迹。它不是只给模型一串工具说明,而是先从真实在线资源发现工具生态,再用代码、数据库、verifier 和测试循环把环境落成可训练的 sandbox。

为什么重要:tool-use agent 的训练常卡在两端。一端是调用真实 API,成本高、延迟大、状态不稳定;另一端是纯 LLM simulator,容易幻觉,训练信号也不可靠。更隐蔽的问题是很多合成轨迹过度说明,把用户意图、推理步骤和工具选择都写得太明白,模型学到的是照着答案执行,而不是处理真实用户的省略、歧义和多轮澄清。

EnvFactory environment generation

这张图展示 EnvGen 的主循环:Search Agent 提出并搜索真实来源,Code Agent 实现数据库和工具代码,Test Agent 生成测试用例和错误报告。右侧的 sunburst 图展示不同领域和工具数量的环境分布。它支撑了论文的关键主张:训练环境不是抽象 prompt,而是可执行、可验证的工具世界;但自动发现来源和自动写代码仍然可能漏掉真实系统里的边界条件。

EnvFactory query generation

QueryGen 是我最关注的部分。它先构建工具依赖图,再采样逻辑连贯的工具链,生成可执行轨迹,最后把 query 改写成更自然、更隐含的用户请求。这个步骤很重要,因为智能体训练数据如果总是“答案式指令”,模型很难学会真实对话里的意图补全和澄清。

方法可以拆成四步。第一步,EnvGen 为候选工具环境恢复接口、数据库状态、执行策略和 verifier。第二步,Test Agent 检查 metadata 一致性、import、执行行为和状态转移,失败就进入 debug-fix-retry。第三步,QueryGen 依据工具依赖关系生成多轮 agent/user 轨迹。第四步,训练时先用用户交互轨迹做 SFT,再用只包含 tool-call 的轨迹做 GRPO 式 RL。

主要结果里最有信息量的是多轮工具任务:

模型环境数任务数BFCL 多轮MCP-Atlas passtau2-Bench 平均VitaBench 平均总平均
Qwen3-1.7B base--16.751.0314.611.3316.27
Qwen3-1.7B EnvFactory852,57528.383.0915.117.3319.74
Qwen3-4B base--33.504.1225.257.6724.09
Qwen3-4B EnvFactory852,57548.509.9730.1316.0030.77
Qwen3-8B base--41.255.1532.3016.7029.23
Qwen3-8B EnvFactory852,57549.0013.7533.6718.6733.40

最清楚的信号来自 BFCL multi-turn:4B 模型从 33.50 到 48.50,8B 从 41.25 到 49.00。MCP-Atlas 也在三个尺寸上都有提升。tau2-Bench 和 VitaBench 的提升不完全均匀,这反而提醒我:环境合成最适合状态化工具交互,不应被读成所有对话能力都会同步提升。

EnvFactory scaling analysis

这张 scaling 图把环境数、训练任务数和 BFCL-v3 多轮表现放在一起。作者想说明,少量但经过验证的环境可以比更大的合成语料更有效。我会把它看成 data efficiency 的证据,而不是“85 个环境足够覆盖真实世界”的结论。

直接 RL 的消融也值得看:

模型BFCL 单轮BFCL 多轮tau2-BenchVitaBench
Qwen3-1.7B79.4816.7514.671.33
EnvFactory-1.7B RL79.5318.3318.281.67
Qwen3-4B85.1533.5025.337.67
EnvFactory-4B RL85.2641.3824.8312.74
Qwen3-8B84.3141.2532.3316.70
EnvFactory-8B RL84.4244.3529.0817.00

我的判断:EnvFactory 值得继续追,因为它把 agentic RL 从“写几个工具调用 demo”推进到“可重复构造训练环境”。但弱点也清楚:sandbox verifier 能保证测试通过,不等于覆盖真实 API 的全部异常、权限、延迟和数据漂移。下一步我会看它是否能保留从真实来源到生成代码、测试、轨迹和 RL reward 的完整 provenance。

对应主题:agentic training、工具智能体、可执行环境、合成数据质量、verifiable rewards。

OpenComputer:给桌面智能体一个可验证的软件世界

作者:Jinbiao Wei、Qianran Ma、Yilun Zhao、Xiao Zhou、Kangqi Ni、Guo Gan、Arman Cohan
机构:未注明
日期:2026-05-19
链接:arXivarXiv HTML

一句话核心 idea:OpenComputer 把 computer-use agent 的桌面任务构造成 verifier-grounded software worlds。每个任务不只是自然语言指令,还包含可执行初始环境、机器可检查的成功标准、完整轨迹记录,以及基于应用真实状态计算的部分奖励。

为什么重要:桌面智能体的失败经常“看起来差不多”。截图里表格像是改好了,但实际 cell 错了;终端窗口显示成功,但日志里关键错误被挡住;浏览器页面看似进入正确状态,但 hidden field 或文件 metadata 没对。只用像素或 LLM judge 做 reward,会把很多近似正确当成成功。OpenComputer 的价值在于把 verifier 当作软件工程对象,而不是事后补一个评审 prompt。

OpenComputer pipeline

这张图展示四阶段流程:先生成应用级 verifier endpoint,再通过执行中的 disagreement analysis 自我修复 verifier,然后合成可实例化、可检查的用户目标,最后在新的桌面 sandbox 里运行 agent 并计算 reward。它明确了奖励边界:系统评价的是最终软件状态,不是模型对自己操作的叙述。

OpenComputer verifier endpoint example

这个 endpoint 示例说明了 verifier-grounded 的具体含义。一个任务会绑定到应用 endpoint、预期检查、JSON 有效性约束和常见失败情况。需要谨慎的是,verifier 工程本身会成为瓶颈:如果 endpoint 无法读取关键状态,要么任务不能收录,要么必须扩展 verifier stack。

发布规模如下:

应用数任务数每个应用平均 verifier endpoint每个任务平均检查项每个任务平均 seed files
331,00017.76.91.3

这不是简单 prompt generation。系统会根据复杂度、数据可生成性和状态可检查性过滤任务。最终任务可以看成三元组:用户指令、sandbox 初始化、可执行成功标准。这个三元组很关键,因为它既能用于评测,也能用于后续收集轨迹、做 rejection sampling 或 RL。

代表性结果如下:

模型OSWorld-VerifiedOpenComputer 成功率平均步数每步时间平均 reward
GPT-5.475.0%68.3%19.016.5 s88.4%
Claude-Sonnet-4.672.5%64.4%31.520.8 s76.6%
Kimi-K2.673.1%58.8%35.733.0 s70.7%
Qwen-3.5-27B56.2%32.3%33.157.3 s59.4%
Gemini-3-Flash-16.4%25.49.0 s37.0%
EvoCUA-8B46.1%10.9%67.09.7 s38.1%
Qwen-3.5-9B41.8%7.8%39.317.8 s31.7%
GUI-OWL-1.5-8B52.3%5.7%73.69.43 s27.8%

强模型明显领先,但即使最好的一行也没有接近满分。平均 reward 高于二元成功率,说明 agent 经常完成部分检查项但没达到完整目标。对训练来说,这种 partial-credit 信号比单一 success/fail 更有用。

verifier 自我演化也有对应证据:

指标数值
1 轮修复的问题47
2 轮修复的问题15
3 轮修复的问题6
预算内未修复8
演化前 agreement85.2%
演化后 agreement94.1% (+8.9%)

我喜欢这个消融,因为它承认 verifier 也会错。系统必须先调试自己的检查层,才有资格说 reward 更可靠。这比把一个 reward script 永久当成真值更诚实。

GUI 和 CLI 的对比也有信息量:

设置模型成功率每任务时间
GUIGPT-5.475.2%288 s
GUIClaude Sonnet 4.673.0%622 s
CLIClaude Sonnet 4.667.2%141 s

CLI 更快,但 GUI 成功率更高。我的理解是,很多桌面任务仍然需要视觉 grounding,但一旦状态检查和文件操作可以转成命令式接口,CLI 路径会节省大量截图-点击循环。未来的 computer-use agent 很可能不是纯 GUI,也不是纯 CLI,而是由 verifier 决定哪些状态必须用哪个接口检查。

我的判断:OpenComputer 很值得追,因为它把桌面智能体评测往软件测试方向推了一步。风险是 coverage。hard-coded verifier 在可检查的地方很精确,但也可能让 benchmark 偏向“容易读取状态”的任务。下一步要看 verifier 生成能否扩大覆盖,而不变成另一个人工维护的大型测试套件。

对应主题:computer-use agents、可验证软件世界、部分奖励、GUI/CLI 工作流、可审计状态。

PH-Dreamer:让世界模型带上物理结构

作者:Xueyu Luan、Chenwei Shi
机构:未注明
日期:2026-05-18
链接:arXivarXiv HTML

一句话核心 idea:PH-Dreamer 在 recurrent visual world model 里加入 Port-Hamiltonian 结构。它让 latent transition 带有 energy routing、flow 和 dissipation 的约束,从 proprioceptive observation 估计显式 Hamiltonian 信号,并用 energy-guided actor-critic 正则化策略,让控制更低能耗、更平滑。

为什么重要:很多论文里的“world model”实际只是一个能预测足够奖励的 latent simulator。它可能对策略训练有用,但不一定保留物理结构。PH-Dreamer 的问题更具体:如果模型要在 latent imagination 里训练控制策略,内部动态是否应该被物理先验约束,而不是只靠统计相关性?

PH-Dreamer architecture part A

这张架构图展示了 RSSM transition 里的隐式结构约束。作者不是手写完整物理方程,而是把 projected latent phase space 往能量式组织上拉。谨慎点看,这仍然只是 learned model 里的 inductive bias,并不等于证明 rollout 物理正确。

PH-Dreamer architecture part B

第二张架构图展示显式 Hamiltonian estimator 和 energy-guided actor-critic。模型从本体感知状态估计能量信号,策略优化再用能量梯度和类似 Lagrangian 的惩罚鼓励低能耗、平滑运动。这里的核心不是多加一个 auxiliary head,而是让物理结构同时影响表示学习和控制目标。

实验使用 DeepMind Control Suite,包括 Cheetah Run、Reacher Easy、Hopper Hop、Walker Stand、Walker Walk、Walker Run。作者主要和 R2Dreamer 比,因为 PH-Dreamer 保留相近的感知 backbone,但把普通 recurrent dynamics 换成 Port-Hamiltonian dynamics;另外也对比 DreamerV3、DreamerPro、Dreamer-InfoNCE 和 HRSSM。

500k steps 的渐近 return 如下:

方法Cheetah RunWalker StandReacher EasyHopper HopWalker WalkWalker Run平均
DreamerV3689.9947.8951.2245.7951.5624.3735.1
Dreamer-InfoNCE691.3934.1963.4212.3904.2484.7698.3
HRSSM647.9962.8868.1236.7941.6515.8695.5
DreamerPro398.0960.4964.6291.6937.2527.5679.9
R2Dreamer701.1972.2970.8297.9959.8673.4762.5
PH-Dreamer798.6974.7985.1314.8967.2694.8789.2

它不是每个任务都大幅跃升,但六个任务方向一致。我会把它理解成:在这个 benchmark 和 backbone 上,物理先验确实带来收益;还不能推广成“Port-Hamiltonian 一定适合所有世界模型”。

PH-Dreamer phase space A

这张 phase-space 图比较 projected latent trajectory。PH-Dreamer 的轨迹更紧凑,支撑了作者关于 latent stability 的判断。作者没有声称这保证 closed-loop boundedness,这个保留很重要。

PH-Dreamer phase space B

第二个视角强化了同一件事:latent 空间更紧并不是为了好看,而是要和性能不下降一起看。一个紧凑但性能差的 latent space 没意义,所以需要结合上面的 return 表和下面的 phase volume 数字。

Log Phase Volume 结果如下:

方法Cheetah RunWalker domainReacher EasyHopper Hop
R2Dreamer14.27626.11517.59321.224
PH-Dreamer13.22725.02316.18519.439
相对下降7.35%4.18%8.00%8.41%

显式能量对齐也很关键:

PH-Dreamer energy alignment

这张图把预测 Hamiltonian 和 MuJoCo ground-truth mechanical energy 放在一起比较。曲线的时间一致性支持一个判断:能量模型不是纯装饰,它确实学到了一些和机械能变化相关的结构。限制也明显:MuJoCo 可以给出干净能量信号,真实机器人或开放视频环境通常没有这么方便的物理状态。

策略行为部分,论文定义了 total energy proxy 和 mean squared jerk:

E_proxy = alpha * sum_t sum_i |tau_i,t * qdot_M(i),t| * dt
        + beta  * sum_t sum_i tau_i,t^2 * dt

J = 1 / ((T - 1) * n_dof) * sum_{t=2..T} sum_j ((qddot_j,t - qddot_j,t-1) / dt)^2
方法Total energy consumption,越低越好Mean squared jerk,越低越好
HRSSM125.4345.12
DreamerV3132.8948.64
DreamerPro128.3646.87
R2Dreamer122.1044.05
PH-Dreamer without implicit component117.5240.19
PH-Dreamer without explicit component121.8443.63
PH-Dreamer112.5839.92

我的判断:PH-Dreamer 的价值在于让“世界模型”这个词更克制。它不只问 latent future 能不能帮策略涨分,还问 latent dynamics 是否保留某种可解释的物理结构,并最终改变控制行为。限制是实验范围仍然集中在 MuJoCo 风格连续控制。我会继续追问:接触丰富的 manipulation、pixels-only setting、action-conditioned video prediction 里,类似物理结构还能不能成立?

对应主题:世界模型、物理先验、latent dynamics、能量感知控制、超越 reward 的评估。

阅读优先级和下期问题

我会优先看 OpenComputer,其次 EnvFactory,再看 PH-Dreamer。OpenComputer 最接近部署痛点:如果 reward 不能读取精确软件状态,桌面智能体会继续从模糊监督里学坏。EnvFactory 更直接指向训练数据和环境构造。PH-Dreamer 则提醒我,embodied agent 的世界模型不能只靠 reward proxy,内部模拟结构本身也值得检查。

下期我想继续追的问题:

  • 桌面智能体的 verifier 能不能规模化生成,而不把 benchmark 缩窄到容易检查的任务?
  • 从真实在线来源到生成代码、测试、轨迹和 RL reward,工具环境能否保留完整 provenance?
  • agentic RL 能否利用 partial-credit verifier signal,同时避免过拟合 reward script?
  • 在接触丰富或 pixels-only 的场景里,没有干净能量标签时,物理结构化 world model 还能不能有效?