从闭环反馈到可审计工作流

3 minute read

Published: April 30, 2026

简短 TL;DR： 本期我把注意力从“智能体能不能刷过一个 benchmark”转到更难的问题：训练和工作流结束后，过程还能不能被核验。四篇论文分别给出四个入口：FutureWorld 用真实世界事件兑现后的结果做延迟奖励；AgentSim 生成可核验的 RAG 智能体轨迹；DV-World 把数据可视化智能体放进原生软件、跨框架演化和交互澄清流程；MoRFI 则从机制层看，后训练引入新事实时为什么可能损伤模型对旧知识的访问。

本期我在看什么

上一期 Paper Radar 关注的是长程智能体的可核验状态。本期我刻意没有继续堆同一类 verifier 或 agent benchmark，而是先从 2026 年 4 月 28 日到 30 日的新论文、Hugging Face、中文科技媒体、社区线索和实验室官方发布里筛选候选，再优先保留开放全文、图表稳定、能细读方法和证据的论文。

这组论文的共同线索是“闭环证据”。FutureWorld 等真实事件发生后才给预测智能体奖励；AgentSim 要求 RAG 智能体留下能追溯到文档的中间步骤；DV-World 把数据可视化看成有软件环境、用户意图和视觉结果的专业流程；MoRFI 虽然不是智能体论文，但它提醒我，很多智能体能力来自后训练，而后训练本身可能改变模型内部访问知识的方式。

STARRY、X-WAM、GLM-5V-Turbo、NVIDIA Nemotron 3 Nano Omni、BioMysteryBench 和 Evergreen 都值得继续追。我这期没有收入，是因为它们会让主题发散；下面四篇已经足够形成从奖励、轨迹、工作流到机制的闭环。

论文细读笔记

FutureWorld: A Live Environment for Training Predictive Agents with Real-World Outcome Rewards

作者： Zhixin Han、Yanzhi Zhang、Chuyang Wei、Maohang Gao、Xiawei Yue、Kefei Chen、Yu Zhuang、Haoxiang Guan、Jiyan He、Jian Li、Yitong Duan、Yu Shi、Mengting Hu、Shuxin Zheng
机构： 南开大学、中国科学院数学与系统科学研究院、中关村学院、清华大学
日期： arXiv，2026 年 4 月 29 日
链接： arXiv，开放 HTML，论文中公布的数据集链接

FutureWorld 问题构造流程

这张图展示了 FutureWorld 的前半段：系统从公开事件源生成 question-description pairs，经过过滤、重采样，再改写成概率预测提示。关键设计是问题在答案尚未出现时生成，这比回看历史事件更能避免答案泄漏。需要谨慎的是，环境质量现在依赖事件源选择、模板、过滤规则和后续 outcome matching，而不只是模型能力。

FutureWorld 延迟奖励训练闭环

这张图是论文的核心。智能体先搜索、阅读、推理并输出概率；轨迹被保存，直到真实事件兑现；系统再把 outcome 回填到原始 rollout，并计算奖励。它支撑了“真实未来预测可以成为强化学习环境”的主张，但也带来了延迟标签、分布漂移和奖励稀疏的问题。

FutureWorld checkpoint 表现

这张曲线图最适合判断训练闭环是否真的产生信号。论文按连续训练日展示 checkpoint 的准确率、Brier score 和校准误差，并给出 bootstrap 置信区间。我会把趋势看成早期但有价值的信号：作者也说明实验仍在继续，而 live environment 会随着新闻周期和源池变化。

一句话核心 idea： FutureWorld 把 live future prediction 变成一个延迟反馈训练环境：先让智能体对尚未发生的真实事件做概率预测，等事件兑现后再用真实 outcome 给奖励。

为什么重要：很多智能体训练环境要么是合成的，要么短程，要么使用已经知道答案的历史样本。未来预测的特殊之处在于世界最终会给出标签。对需要持续从现实学习的智能体来说，这是一种很有代表性的闭环。

方法可以拆成四步。第一，系统维护一组公开事件源，论文当前版本提到 72 个候选网站，覆盖多个领域。第二，通过规则或模板构造 question-description pairs，过滤低质量问题，并重采样平衡领域；论文报告在连续七天里，过滤后平均约有 2,047 个 pair，然后保留 500 个问题。第三，每个问题变成一次智能体 rollout，包含搜索、阅读、推理和概率预测。第四，在预定时间 outcome 可用后，系统检索真实结果、匹配到保存的轨迹、计算奖励，并用累计奖励更新模型。

证据还处在探索阶段，但足够具体。训练实验显示，多个 checkpoint 在准确率、Brier score 和校准误差上随天数改善。日常 benchmark 也让带网页搜索能力的前沿智能体连续四天答题；四天平均结果里，qwen/qwen3-max-thinking 总分最高，为 39.01，google/gemini-3.1-pro-preview 为 37.70，anthropic/claude-opus-4.6 为 37.00。在一个选定日期的小模型对比中，Qwen2.5-3B-Instruct 从未训练的 0.00 提到八天训练后的 43.72，DeepSeek-R1-0528-Qwen3-8B 从 13.57 提到 34.53。这些数字不是最终结论，但说明环境能产生可用训练信号。

我的判断是，FutureWorld 最值得看的不是当前 leaderboard，而是延迟奖励协议。它把智能体学习绑定到事件兑现、概率校准和 outcome matching。风险也很清楚：如果问题生成器或 outcome resolver 有偏差，模型可能学到环境伪影，而不是更好的预测。下一步我最想看的是，系统能否给自己的标签附带置信度，尤其是在来源冲突或事件结果边界模糊时。

主题连接： 智能体训练、真实世界奖励、概率校准、闭环评测。

AgentSim: A Platform for Verifiable Agent-Trace Simulation

作者： Saber Zerhoudi、Michael Granitzer、Jelena Mitrovic
机构： 帕绍大学、奥地利跨学科转型大学
日期： arXiv，2026 年 4 月 29 日；SIGIR 2026
链接： arXiv，开放 HTML，DOI

AgentSim 工作流和语料

这张图把 AgentSim 定位成轨迹生产系统，而不是单纯 benchmark。它把文档集合上的模拟、轨迹记录、验证和语料构造连在一起。论文的核心主张是：RAG 智能体的中间步骤必须能绑定到具体文档，否则自由形式的推理文字很难用于审计或训练。

AgentSim 探索广度

这张图解释了为什么 seed 选择重要。Corpus-Aware Seeding 试图覆盖更广、重复更少的文档区域，而不是反复采样同一批容易检索的内容。需要注意的是，探索广度本身依赖检索器、语料和 top-k 设置，所以它不是脱离系统配置的绝对指标。

一句话核心 idea： AgentSim 在文档集合上生成可核验的 RAG 智能体轨迹，让每个实质性步骤都能追溯到检索动作、文档和验证信号。

为什么重要：很多 deep research 或 RAG agent 仍然只看最终答案。这样很难知道智能体是依据证据得到答案、只是碰巧检索到了关键词，还是在没有支持的情况下做了综合。AgentSim 抓住的是数据问题：如果想训练可信 RAG 智能体，就需要能逐步检查的轨迹。

系统主要有两个机制。Corpus-Aware Seeding 用 embedding 聚类、新颖性阈值和多样性-相关性权衡来选择起始 query，让模拟覆盖不同主题和文档区域。Active Validation 则用多模型分歧来决定哪些步骤最值得人工复核，把标注精力集中在真正含混的地方。平台还提供可视化原型界面和命令行生成工具。

语料规模不小。Agent-Trace Corpus 包含 103,567 个推理轨迹步骤、20,548 个监督训练 pair、199,968 个唯一检索文档和 26,176 个生成 query，覆盖 MS MARCO、Quasar-T 和 CausalQA，分析模型包括 gpt-4o、mistral-large 和 deepseek-v3。在 500 个 seed、五次运行的实验里，Corpus-Aware 方法在三个数据集上都达到完整 cluster coverage，并把检索冗余压到接近零。这支撑了论文较窄但重要的结论：好的 seed policy 能让轨迹模拟探索更多语料。

论文还分析了不同模型的 query reformulation 行为。三个模型都以 conceptual reformulation 为主，但 deepseek-v3 使用 syntactic reformulation 的比例明显更高。我喜欢这一点，因为它把轨迹当成行为数据，而不只是训练样本。如果智能体需要被审计，我们就需要这种过程分类。

我的保留是，模拟轨迹可能过于干净。即使有 active validation，生成式 RAG 轨迹也不等同于真实研究过程中的目标混乱、页面损坏、文档矛盾和时间压力。尽管如此，AgentSim 仍然是有价值的基础设施，因为它把 grounded trace generation 和 final-answer scoring 分开。对文档智能和数据智能体来说，这类证据链非常重要。

主题连接： 文档智能、RAG 智能体、可核验轨迹、数据构造。

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

作者： Jinxiang Meng、Shaoping Huang、Fangyu Lei、Jingyu Guo、Haoxiang Liu、Jiahao Su、Sihan Wang、Yao Wang、Enrui Wang、Ye Yang、Hongze Chai、Jinming Lv、Anbang Yu、Huangjing Zhang、Yitong Zhang、Yiming Huang、Zeyao Ma、Shizhu He、Jun Zhao、Kang Liu
机构： 中国科学院自动化研究所、中国科学院大学、新加坡国立大学、中国人民大学
日期： arXiv，2026 年 4 月 28 日
链接： arXiv，开放 HTML，Hugging Face 论文页

DV-World 生命周期总览

这张总览图是我选择 DV-World 的原因。它同时覆盖原生 spreadsheet 图表操作、跨可视化框架的已有图表演化，以及带用户模拟器的交互澄清。这比“从一张干净表生成一张图”更接近真实数据工作。

DV-World 数据 grounding 分析

这张图把 table coverage、视觉质量和修复成功率放在一起看。左图显示，图表创建中数据覆盖和视觉美感存在正相关；右图拆分了不同 fix 类型的成功率。谨慎点在于，评测混合了规则检查和多模态模型 judge，所以评测框架本身也需要被审计。

DV-World 交互询问分析

这张交互图很有产品意义。询问用户可以提升结果，但只有当问题真正减少歧义时才有用。它纠正了一个常见假设：智能体“多问”不一定更好，关键是知道哪个歧义正在阻塞任务。

一句话核心 idea： DV-World 用原生表格操作、跨框架可视化演化和交互式意图对齐来评测数据可视化智能体，把可视化任务从代码沙盒推进到更真实的专业工作流。

为什么重要：数据智能体在代码环境里经常看起来不错，但一旦涉及 spreadsheet、图表对象、视觉检查、用户澄清和业务约束，就会暴露很多问题。DV-World 把这些摩擦纳入 benchmark，所以它不是普通图表生成论文，而是 data agent 评测。

Benchmark 分三块。DV-Sheet 测试 chart/dashboard 创建和诊断修复；DV-Evolution 要求智能体跨 Python、Apache ECharts、Vega-Lite、D3.js、Plotly.js 修改和重构已有视觉产物；DV-Interact 使用用户模拟器和 ambiguity taxonomy，迫使智能体决定什么时候问、问什么。整个 benchmark 有 260 个任务，包括 DV-Sheet 的 50 个创建、50 个修复、30 个 dashboard 任务，DV-Evolution 的 80 个任务，以及 DV-Interact 的 50 个任务。论文还报告了 51 种图表类型、DV-Sheet 平均 36.53 列和 11,583.36 行、每个交互任务平均 3.17 个歧义点。

实验结果并不乐观。原生 spreadsheet 可视化里，最强模型整体分数仍在 40 左右；正文强调 Gemini-3-Pro 的峰值为 40.48%，GPT-5.2 和 DeepSeek-V3.2 也没有超过 38%。DV-Evolution 稍好，但跨框架迁移仍然困难；论文报告 Gemini-3-Pro 总分 51.44%，且不同可视化库之间差异明显。DV-Interact 中 Grok-4 以 40.43% 领先，但论文强调 proactive reasoning 和澄清质量仍是瓶颈。

我最想回看的其实是错误分析。DV-Sheet 的创建和修复里，data accuracy 是主要错误源：论文报告创建错误中数据准确性超过一半，修复任务平均 69.31% 的错误来自数据准确性。Dashboard 的主要错误则转向视觉设计，平均占 45.71%。这说明当前智能体经常能产出“像图表的东西”，但仍然丢失表格值、视觉编码和用户分析意图之间的关系。

我的判断是，DV-World 的价值在于同时测试多个契约：数值保真、视觉语义、软件环境和用户意图。风险是评测复杂度。混合打分在这里大概不可避免，但读者也必须审计 evaluator。我会把 DV-World 当作诊断套件，而不是只看一个总分的排行榜。

主题连接： 数据智能体、表格与文档智能、视觉 grounding、交互式工作流。

MoRFI: Monotonic Sparse Autoencoder Feature Identification

作者： Dimitris Dimakopoulos、Shay B. Cohen、Ioannis Konstas
机构： 爱丁堡大学、赫瑞瓦特大学
日期： arXiv，2026 年 4 月 29 日
链接： arXiv，开放 HTML

MoRFI 单 latent steering

这张图展示了 MoRFI 不只是相关性筛选的原因。作者先找出随 fine-tuning 条件单调变化的 SAE latent，再对单个 latent 做 steering，并与 control latent 对比。右侧控制组很关键：它检验效果是否来自有针对性的特征，而不是随便扰动 residual stream。

MoRFI 复合方向对比

这张图比较了 known-to-unknown 的复合方向和单个高影响 latent。论文报告，减去复合方向通常有帮助，但 MoRFI 选出的单 latent 往往带来更大改善。这个结果支持一种稀疏机制解释：有害的 fine-tuning shift 并不是均匀分布在整个方向上。

一句话核心 idea： MoRFI 研究为什么在新事实上做监督微调可能增加幻觉。它用 sparse autoencoder 找出随可控微调条件单调变化的 latent，再通过 steering 检查这些 latent 是否真的影响模型访问预训练知识的能力。

为什么和智能体有关：智能体行为越来越多地来自后训练、工具使用数据、合成轨迹和领域适配。如果加入新事实或技能会损伤模型对旧知识的访问，最终部署可靠性可能在 benchmark 之外悄悄下降。MoRFI 给了一个观察这种问题的机制工具。

实验设计相对克制。作者在 EntityQuestions 派生的 closed-book QA 上微调 Llama 3.1 8B、Gemma 2 9B 和 Mistral 7B v0.3，控制两个变量：微调样本中对预训练模型未知的事实比例，以及训练 epoch 数。随后收集中间 residual stream 激活，通过预训练 SAE 得到样本、属性设置、特征和时间构成的四维激活张量。MoRFI 用 bootstrap 和统计检验筛出单调变化的 SAE feature，再用 activation steering 测试这些 feature 是否对准确率有因果影响。

证据比较具体。附录报告数据划分为 81,700 个训练样本、10,725 个 dev 样本和 10,481 个 test 样本。论文显示，微调混合中未知事实比例越高，三个模型的测试表现越差，训练更久时影响更强。跨模型 steering 结果里，单 latent 干预能恢复相当一部分因未知事实微调而丢失的准确率；论文报告不同模型和方向设置下的恢复比例大约在 69% 到 85% 之间。以 Llama 3.1 8B 为例，完全未知事实微调 baseline 准确率为 0.178，已知事实 baseline 为 0.355，部分选中 latent 干预能把未知事实 checkpoint 推到 0.238。

我的保留是适用范围。这是一个特定的 closed-book QA 设置，包含特定模型、SAE、Wikidata 关系和微调混合；它不能证明所有后训练幻觉都有同一种稀疏方向结构。但论文有价值，因为它把“fine-tuning 会伤害知识”这种笼统说法变成了可检验机制：找单调 latent、扰动 latent、测知识访问是否恢复。

我会把 MoRFI 和前三篇放在一起读：FutureWorld、AgentSim、DV-World 都会生成新的智能体数据和反馈；MoRFI 提醒我们，增加数据并不天然安全。后训练闭环越自动化，就越需要监控模型内部到底发生了什么变化。

主题连接： 大模型机理、后训练可靠性、稀疏自编码器分析、智能体训练风险。

阅读优先级和下期问题

如果目标是智能体训练，我会先读 FutureWorld，因为延迟真实奖励是一个重要设计变化。如果目标是可审计的数据和文档工作流，我会把 AgentSim 与 DV-World 放在一起读：前者关注轨迹构造，后者关注真实数据可视化任务。MoRFI 则应该放在所有后训练论文旁边，因为它问的是训练后模型内部知识访问发生了什么。

下一期我想继续追三个问题：live environment 能不能给延迟标签附带置信度；trace simulator 能不能处理更混乱、互相矛盾的证据；后训练管线能否在部署失败出现前，监测到模型内部知识访问能力受损。