先探索再行动，先组证据再作答

4 minute read

Published: May 18, 2026

TL;DR：本期我关注的是智能体和世界模型在作答或行动之前应该先做什么。一篇论文把“探索陌生环境”做成可训练能力，而不是指望任务奖励顺便学出来；一篇论文把 deep research 从多条搜索轨迹的投票，改成共享证据图的组装；一篇论文则追问视频 latent prediction 到底有没有学到更像世界模型的表示，而不只看干净分类准确率。

本期我在看什么

最近几期 Paper Radar 已经写过工具路径选择、数据智能体搜索、trace 诊断和 MoE 路由几何。如果这期继续只说“中间状态要可见”，会有点重复。所以我这次换了一个更具体的问题：系统在承诺答案或动作之前，应该先检查、探索或组装什么？

最后选了三篇 2026 年 5 月 15 日的 arXiv 论文。Look Before You Leap 讨论探索作为训练目标；Argus 讨论 deep research 里的证据图；Latent Video Prediction Learns Better World Models 不是狭义 agent 论文，但它给“世界模型”这个词提供了更像样的鲁棒性检验。我也继续把密集结果表改写成 Markdown 表格，避免把小字截图塞进正文。

论文细读笔记

Look Before You Leap：先探索，再行动

作者：Ziang Ye、Wentao Shi、Yuxin Liu、Yu Wang、Zhengzhou Cai、Yaorui Shi、Qi Gu、Xunliang Cai、Fuli Feng
机构：University of Science and Technology of China；Meituan
日期：2026-05-15
链接：arXiv，arXiv HTML

一句话核心 idea：这篇论文认为，面向任务成功率的 RL 可能让智能体更会做已知任务，却更不会探索陌生环境。作者提出 Exploration Checkpoint Coverage，用显式探索奖励训练智能体，并在推理时采用 Explore-then-Act：先用固定预算摸清环境，再把获得的知识交给执行阶段。

为什么重要：很多长程智能体失败并不是因为不会推理，而是太早承诺。它假设房间布局、工具功能、配方规则或交互条件和训练时一样，然后一直执行一个错误计划。真正部署到 GUI、数据库、实验室流程或模拟环境里时，不会探索的智能体很脆。

Look Before You Leap overview

这张图概括了论文的主张。task-only training 会把模型推向熟悉的目标模式，而 exploration-aware training 奖励模型发现环境结构、对象和 affordance。需要谨慎的是，ALFWorld、ScienceWorld 和 TextCraft 里可以定义清楚 checkpoint；真实软件和业务流程里的 checkpoint 往往更噪声、更难自动抽取。

Exploration Checkpoint Coverage

ECC 衡量自由探索轨迹发现了多少预定义环境 checkpoint。它比“走了多少步”更有意义，因为长轨迹也可能只是在原地绕圈。这个指标的价值在于把“模型动作很多”和“模型真的获得环境知识”分开了。

无任务探索诊断的部分结果如下：

模型	ALFWorld、SciWorld、TextCraft 平均 ECC	Explore-then-Act 带来的平均任务变化
Qwen2.5-7B	22.2%	-0.7
Qwen2.5-7B + task GRPO	12.6%	-1.2
Qwen3-4B	28.5%	-2.2
Qwen3-4B + task GRPO	18.8%	-0.8
LLaMA3.1-8B	30.9%	-1.7
GPT-4.1	49.3%	+2.0
Claude-Opus-4.5	89.5%	+8.6

最值得注意的不只是闭源强模型探索更多，而是 task-oriented GRPO 可能降低 ECC。这个结果支持了作者的判断：只奖励任务完成，容易学出狭窄的工具性策略。Explore-then-Act 也不是万能，只有探索轨迹真的包含可用知识时，它才会帮助后续执行。

方法拆开看有三步。第一步，把 checkpoint 定义成可验证的状态、对象、位置或 affordance。第二步，用 GRPO 分别训练 task-only、explore-only 和 interleaved 三种设置，其中探索轨迹的奖励就是 ECC。第三步，推理时先让 explorer 在固定预算内收集环境知识，再让 executor 带着这些知识完成任务。

探索感知训练后的任务成功率如下：

Backbone 与方法	ALFWorld 直接执行	ALFWorld 先探索再执行	SciWorld 直接执行	SciWorld 先探索再执行	TextCraft 直接执行	TextCraft 先探索再执行	平均直接执行	平均先探索再执行
Qwen2.5-7B zero-shot	54.4	54.1	4.9	4.3	15.4	14.3	24.9	24.2
Qwen2.5-7B task GRPO	94.4	93.2	43.9	42.6	66.8	66.5	68.4	67.4
Qwen2.5-7B interleaved GRPO	96.9	98.5	45.8	47.2	70.1	73.7	70.9	73.1
Qwen3-4B zero-shot	30.9	28.7	5.2	4.3	34.1	30.7	23.4	21.2
Qwen3-4B task GRPO	84.6	84.3	54.9	53.1	82.2	83.1	73.9	73.5
Qwen3-4B interleaved GRPO	90.5	92.7	55.2	56.9	85.9	89.0	77.2	79.5

这张表说明，探索并不是换一种 prompt 包装。interleaved GRPO 同时提高直接执行和先探索再执行的表现。部分环境提升并不夸张，但两个 backbone 上方向一致。

Exploration efficiency and downstream performance

这张图把探索预算和 ALFWorld 下游表现连起来。它提醒我，探索的价值取决于 explorer 多快找到高价值 checkpoint。部署时真正的问题不是“要不要探索”，而是“行动前花多少预算探索才划算”。

失败样本中的行为诊断如下：

指标	task-only training	exploration-aware training
重复动作率	63.4%	24.9%
循环率	16.0%	7.7%
信息寻求率	1.0%	7.5%
错误恢复率	0.0%	20.1%

这张表解释了为什么探索训练即使在没有单独探索阶段时也有帮助。模型少重复无效动作，多寻找信息，也更会从错误中恢复。我的理解是，奖励并不只是让模型“多走走”，而是在训练一种反射：先检查状态，发现不对就换策略。

我的判断：这是一篇很好的 agentic training 论文，因为它点名了一个容易被任务奖励压掉的能力。弱点是 checkpoint 构造。ECC 在 benchmark 里很干净，但如果迁移到企业 GUI、数据库或实验工具，如何自动生成可靠 checkpoint 会是关键难题。

对应主题：agentic training、探索、verifiable rewards、长程智能体、环境状态。

Argus：把 deep research 变成证据图组装

作者：Zhen Zhang、Liangcai Su、Zhuo Chen、Xiang Lin、Haotian Xu、Simon Shaolei Du、Kaiyu Yang、Bo An、Lidong Bing、Xinyu Wang
机构：MiroMind AI
日期：2026-05-15
链接：arXiv，arXiv HTML

一句话核心 idea：Argus 把 deep research 看成证据组装问题。Searcher 负责跑 ReAct 式搜索轨迹；Navigator 维护有向证据图，识别缺失和矛盾，派发新的搜索，再基于图合成可追溯来源的答案。

为什么重要：并行搜索智能体常见的问题是重复找同一类证据，长单轨迹智能体则容易把所有东西塞进越来越长的上下文。Argus 给中间研究状态一个结构：证据节点、claim 节点、支持或反驳边。这个结构比“多跑几条搜索”更关键。

Argus operating modes

这张图对比了单个 Searcher、Navigator 引导搜索和并行 Argus。区别不是搜索次数更多，而是 Navigator 会针对未填补的证据块发起查询。这正是我关心的 deep research 失败模式：更多 rollout 应该覆盖缺失证据，而不是对同一个半成品答案投票。

Argus evidence board

案例图展示了共享 evidence board。绿色代表被支持的证据块，红色代表被丢弃的探针，最终答案中的 claim 可以追溯到证据节点。我不会把这张图理解成系统永远忠实，但它确实给审计留下了一个具体表面。

Navigator 的图可以简化成：

G = (E, C, A)
A subset of (E union C) x C x {support, contradict}

E 是证据，C 是 claim，带标签的边说明某个证据或 claim 支持还是反驳另一个 claim。训练时，Navigator 会产生一个带 verification 的 synthesis，以及一个不带 verification 的 shadow synthesis。奖励把答案得分和 verification 带来的增益组合起来，所以模型只有在证据图真的改善答案时才会受益。

Argus training pipeline

训练图里有一个重要细节：梯度只作用在 Navigator 生成的 token 上。Searcher 轨迹和外部输入被 mask 掉，因此训练的是图构建和合成策略，而不是搜索 actor 本身。风险也在这里：如果 Searcher 找不到关键网页或资料，Navigator 无法凭空补出证据。

BrowseComp 上不同 Searcher backbone 的结果如下：

Searcher backbone	Searcher	Argus-Solo	Majority vote, K=8	LLM aggregation, K=8	Argus-Parallel, K=8
Searcher-35B-A3B	55.0	62.2	56.2	56.5	74.5
DeepSeek-V4-Flash-Max	64.0	68.0	60.0	69.0	78.5
Seed-2.0-Pro	70.2	78.6	67.0	73.8	82.4

这张表最紧凑地支持了论文论点。在相同或可比的搜索预算下，图引导并行比 majority voting 和普通 LLM aggregation 更好。它也说明另一个事实：Searcher 越强，Argus 上限越高；Argus 改善的是编排，不是资料本身是否存在。

图表示消融如下：

变体	Navigator 看到什么	BrowseComp
Full DAG	证据、claim、支持或反驳边、状态、corroboration strength	74.5
Bare graph	证据和 claim，边没有正负标签，只有粗粒度状态	72.0
Text only	按抽取顺序拼接证据和 claim，无边、无状态	69.3

这个消融很重要，因为它测试证据图是不是装饰。去掉边标签和状态会掉分，把同样材料压平成文本掉得更多。也就是说，结构本身确实改变了 synthesis，而不只是把结果展示得好看一点。

主结果表覆盖 BrowseComp、BrowseComp-ZH、GAIA、SEAL-0、xbench DeepSearch-2510、Humanity’s Last Exam 和 FrontierScience 变体。论文报告 Argus-35B-A3B Parallel 相比 Searcher 在所有列都有提升，比如 BrowseComp 从 55.0 到 74.5，BrowseComp-ZH 从 62.3 到 83.4，GAIA 从 84.5 到 93.2，FrontierScience Research 从 5.4 到 25.0。和闭源系统的横向比较我会谨慎看，因为表里混合了官方报告、复现实验和不同系统假设；最干净的比较还是作者设置里的 Searcher 对 Argus。

我的判断：Argus 是一篇很贴近 document intelligence 和 deep research agent 的论文，因为它把“多检索”推进到“组装缺失证据”。限制是成本。论文提到 Searcher token consumption 从 K=1 的 0.4M 增长到 K=64 的 25.6M，因此这更适合答案价值足够高、需要来源追踪的问题。

对应主题：文档智能、deep research agents、证据图、source attribution、并行智能体编排。

Latent Video Prediction Learns Better World Models：世界模型不能只看干净准确率

作者：Ali J Alrasheed、Aryan Yazdan Parast、Basim Azam、James Bailey、Naveed Akhtar
机构：The University of Melbourne；Monash University
日期：2026-05-15
链接：arXiv，arXiv HTML

一句话核心 idea：这篇论文评估 latent-prediction 视频模型是否比像素重建或对比学习 baseline 更像可用世界模型。作者比较 V-JEPA 2.1、V-JEPA 2、VideoPrism 和 VideoMAEv2，不只看一个干净 top-1，而是看五个鲁棒性维度。

为什么重要：“world model” 这个词现在被用得很宽。一个模型在干净动作分类上表现好，不代表它能处理传感器噪声、遮挡、缺帧、接触细节或时间反转。本文有价值的地方，是把世界模型表示应该保留的性质拆成可测项。

Latent video prediction robustness profile

雷达图总结了 Something-Something v2 上的多轴评估。V-JEPA 系列在可分性、腐蚀鲁棒性、细粒度动作区分、遮挡鲁棒性和时间方向敏感性上更均衡。需要注意的是，这仍是表示评估，不是闭环规划或控制实验。

实验中的模型对比如下：

模型	参数量约数	预训练数据	目标	来源
V-JEPA 2.1	300M	超过 100 万小时互联网视频	latent prediction	Meta
V-JEPA 2	300M	超过 100 万小时互联网视频	latent prediction	Meta
VideoPrism	300M	视频加视频文本对，3600 万 clips	contrastive plus masked prediction	Google
VideoMAEv2	300M	公共无标签混合数据	pixel reconstruction	open source

这张表说明比较不是简单的“大模型赢”。主实验里四个 encoder 都是 ViT-Large 量级，但训练目标不同。论文核心 claim 是 latent prediction 会改变表示保留什么信息。

评测基于 Something-Something v2，包含 22 万多个视频和 174 类人和物体交互。作者分别评估：30 类 600 个视频上的 feature discriminability，500 个平衡视频上的六类 ImageNet-C corruption，22 类 1992 个视频上的 pretend-action discrimination，174 类 1740 个视频上的遮挡鲁棒性，以及 frame shuffling、reversal、static replacement、noise injection 等时间扰动。这个设计是我选它的原因：它把“世界模型”拆成了一组具体压力测试。

Corruption robustness

这张图比较了 corruption severity 增大时的分类准确率和 embedding cosine similarity。它给出的提醒很细：表示稳定不等于决策有用。VideoPrism 的 embedding 可以很稳定，但分类结构仍然受损，所以世界模型评估不能只看特征几何是否变化小。

pretend action 部分对 embodied agent 特别有意思。V-JEPA 系列在需要识别“没有真实接触”的类别上优于 VideoMAEv2，例如假装拿起、假装倒出等。作者的解释是，latent prediction 需要保留更高层的物理状态变化，而像素重建会把容量花在纹理和颜色上，这些细节不一定能区分真实交互和假动作。

Temporal reversal and directional coherence

这张图问的是模型是否编码时间箭头。论文使用 semantic flip rate、directional semantic coherence 和 clean/reversed embedding cosine similarity 来衡量。V-JEPA 系列表现出更强的方向语义，而其他模型的稳定 embedding 可能掩盖了时间不敏感。

附录中的一个时间鲁棒性指标如下：

模型	Temporal Dependency Index
VideoPrism	0.17
V-JEPA 2.1	0.51
VideoMAEv2	0.64
V-JEPA 2	0.68

这个指标不能简单理解成越高越好。低依赖可能是时间盲，高依赖也可能是脆弱。V-JEPA 2.1 有意思的地方是，它在保持较高准确率的同时只有中等时间敏感性，这更像规划表示需要的平衡。

我的判断：这篇还不能完整证明某个视频模型就是世界模型，但它给了一个比 clean top-1 更好的检验方式。论文没有展示 action-conditioned rollout、counterfactual planning 或闭环控制。不过它确实说明，latent-prediction encoder 能保留一些干净分类看不出来的物理和时间差异。

对应主题：世界模型、latent prediction、表示鲁棒性、物理接触线索、时间推理。

阅读优先级和下期问题

我的优先级是 Argus、Look Before You Leap，然后是 latent video world-model 评测。Argus 最贴近 deep research agent 的部署瓶颈：证据应该被组装，而不是只被检索。Look Before You Leap 是更强的训练信号论文，尤其适合进入陌生环境的 agent。视频论文则给后续 embodied agent 和 world model 提供了一个评测视角。

下期我会继续追这几个问题：

探索 checkpoint 能不能从 GUI、数据库或实验环境中自动抽取，而不是人工列清单？
deep research 的证据图能不能支持人类编辑、矛盾复核和 stale source 检测？
agentic RL 能不能学会何时探索值得花预算，而不是固定先 Explore-then-Act？
视频世界模型的表示鲁棒性，能否预测闭环规划表现，还是只是一种 representation-level proxy？