从闭环反馈到可审计工作流

3 minute read

Published:

简短 TL;DR: 本期我把注意力从“智能体能不能刷过一个 benchmark”转到更难的问题:训练和工作流结束后,过程还能不能被核验。四篇论文分别给出四个入口:FutureWorld 用真实世界事件兑现后的结果做延迟奖励;AgentSim 生成可核验的 RAG 智能体轨迹;DV-World 把数据可视化智能体放进原生软件、跨框架演化和交互澄清流程;MoRFI 则从机制层看,后训练引入新事实时为什么可能损伤模型对旧知识的访问。

本期我在看什么

上一期 Paper Radar 关注的是长程智能体的可核验状态。本期我刻意没有继续堆同一类 verifier 或 agent benchmark,而是先从 2026 年 4 月 28 日到 30 日的新论文、Hugging Face、中文科技媒体、社区线索和实验室官方发布里筛选候选,再优先保留开放全文、图表稳定、能细读方法和证据的论文。

这组论文的共同线索是“闭环证据”。FutureWorld 等真实事件发生后才给预测智能体奖励;AgentSim 要求 RAG 智能体留下能追溯到文档的中间步骤;DV-World 把数据可视化看成有软件环境、用户意图和视觉结果的专业流程;MoRFI 虽然不是智能体论文,但它提醒我,很多智能体能力来自后训练,而后训练本身可能改变模型内部访问知识的方式。

STARRY、X-WAM、GLM-5V-Turbo、NVIDIA Nemotron 3 Nano Omni、BioMysteryBench 和 Evergreen 都值得继续追。我这期没有收入,是因为它们会让主题发散;下面四篇已经足够形成从奖励、轨迹、工作流到机制的闭环。

论文细读笔记

FutureWorld: A Live Environment for Training Predictive Agents with Real-World Outcome Rewards

作者: Zhixin Han、Yanzhi Zhang、Chuyang Wei、Maohang Gao、Xiawei Yue、Kefei Chen、Yu Zhuang、Haoxiang Guan、Jiyan He、Jian Li、Yitong Duan、Yu Shi、Mengting Hu、Shuxin Zheng
机构: 南开大学、中国科学院数学与系统科学研究院、中关村学院、清华大学
日期: arXiv,2026 年 4 月 29 日
链接: arXiv开放 HTML论文中公布的数据集链接

FutureWorld 问题构造流程

这张图展示了 FutureWorld 的前半段:系统从公开事件源生成 question-description pairs,经过过滤、重采样,再改写成概率预测提示。关键设计是问题在答案尚未出现时生成,这比回看历史事件更能避免答案泄漏。需要谨慎的是,环境质量现在依赖事件源选择、模板、过滤规则和后续 outcome matching,而不只是模型能力。

FutureWorld 延迟奖励训练闭环

这张图是论文的核心。智能体先搜索、阅读、推理并输出概率;轨迹被保存,直到真实事件兑现;系统再把 outcome 回填到原始 rollout,并计算奖励。它支撑了“真实未来预测可以成为强化学习环境”的主张,但也带来了延迟标签、分布漂移和奖励稀疏的问题。

FutureWorld checkpoint 表现

这张曲线图最适合判断训练闭环是否真的产生信号。论文按连续训练日展示 checkpoint 的准确率、Brier score 和校准误差,并给出 bootstrap 置信区间。我会把趋势看成早期但有价值的信号:作者也说明实验仍在继续,而 live environment 会随着新闻周期和源池变化。

一句话核心 idea: FutureWorld 把 live future prediction 变成一个延迟反馈训练环境:先让智能体对尚未发生的真实事件做概率预测,等事件兑现后再用真实 outcome 给奖励。

为什么重要:很多智能体训练环境要么是合成的,要么短程,要么使用已经知道答案的历史样本。未来预测的特殊之处在于世界最终会给出标签。对需要持续从现实学习的智能体来说,这是一种很有代表性的闭环。

方法可以拆成四步。第一,系统维护一组公开事件源,论文当前版本提到 72 个候选网站,覆盖多个领域。第二,通过规则或模板构造 question-description pairs,过滤低质量问题,并重采样平衡领域;论文报告在连续七天里,过滤后平均约有 2,047 个 pair,然后保留 500 个问题。第三,每个问题变成一次智能体 rollout,包含搜索、阅读、推理和概率预测。第四,在预定时间 outcome 可用后,系统检索真实结果、匹配到保存的轨迹、计算奖励,并用累计奖励更新模型。

证据还处在探索阶段,但足够具体。训练实验显示,多个 checkpoint 在准确率、Brier score 和校准误差上随天数改善。日常 benchmark 也让带网页搜索能力的前沿智能体连续四天答题;四天平均结果里,qwen/qwen3-max-thinking 总分最高,为 39.01,google/gemini-3.1-pro-preview 为 37.70,anthropic/claude-opus-4.6 为 37.00。在一个选定日期的小模型对比中,Qwen2.5-3B-Instruct 从未训练的 0.00 提到八天训练后的 43.72,DeepSeek-R1-0528-Qwen3-8B 从 13.57 提到 34.53。这些数字不是最终结论,但说明环境能产生可用训练信号。

我的判断是,FutureWorld 最值得看的不是当前 leaderboard,而是延迟奖励协议。它把智能体学习绑定到事件兑现、概率校准和 outcome matching。风险也很清楚:如果问题生成器或 outcome resolver 有偏差,模型可能学到环境伪影,而不是更好的预测。下一步我最想看的是,系统能否给自己的标签附带置信度,尤其是在来源冲突或事件结果边界模糊时。

主题连接: 智能体训练、真实世界奖励、概率校准、闭环评测。

AgentSim: A Platform for Verifiable Agent-Trace Simulation

作者: Saber Zerhoudi、Michael Granitzer、Jelena Mitrovic
机构: 帕绍大学、奥地利跨学科转型大学
日期: arXiv,2026 年 4 月 29 日;SIGIR 2026
链接: arXiv开放 HTMLDOI

AgentSim 工作流和语料

这张图把 AgentSim 定位成轨迹生产系统,而不是单纯 benchmark。它把文档集合上的模拟、轨迹记录、验证和语料构造连在一起。论文的核心主张是:RAG 智能体的中间步骤必须能绑定到具体文档,否则自由形式的推理文字很难用于审计或训练。

AgentSim 探索广度

这张图解释了为什么 seed 选择重要。Corpus-Aware Seeding 试图覆盖更广、重复更少的文档区域,而不是反复采样同一批容易检索的内容。需要注意的是,探索广度本身依赖检索器、语料和 top-k 设置,所以它不是脱离系统配置的绝对指标。

一句话核心 idea: AgentSim 在文档集合上生成可核验的 RAG 智能体轨迹,让每个实质性步骤都能追溯到检索动作、文档和验证信号。

为什么重要:很多 deep research 或 RAG agent 仍然只看最终答案。这样很难知道智能体是依据证据得到答案、只是碰巧检索到了关键词,还是在没有支持的情况下做了综合。AgentSim 抓住的是数据问题:如果想训练可信 RAG 智能体,就需要能逐步检查的轨迹。

系统主要有两个机制。Corpus-Aware Seeding 用 embedding 聚类、新颖性阈值和多样性-相关性权衡来选择起始 query,让模拟覆盖不同主题和文档区域。Active Validation 则用多模型分歧来决定哪些步骤最值得人工复核,把标注精力集中在真正含混的地方。平台还提供可视化原型界面和命令行生成工具。

语料规模不小。Agent-Trace Corpus 包含 103,567 个推理轨迹步骤、20,548 个监督训练 pair、199,968 个唯一检索文档和 26,176 个生成 query,覆盖 MS MARCO、Quasar-T 和 CausalQA,分析模型包括 gpt-4omistral-largedeepseek-v3。在 500 个 seed、五次运行的实验里,Corpus-Aware 方法在三个数据集上都达到完整 cluster coverage,并把检索冗余压到接近零。这支撑了论文较窄但重要的结论:好的 seed policy 能让轨迹模拟探索更多语料。

论文还分析了不同模型的 query reformulation 行为。三个模型都以 conceptual reformulation 为主,但 deepseek-v3 使用 syntactic reformulation 的比例明显更高。我喜欢这一点,因为它把轨迹当成行为数据,而不只是训练样本。如果智能体需要被审计,我们就需要这种过程分类。

我的保留是,模拟轨迹可能过于干净。即使有 active validation,生成式 RAG 轨迹也不等同于真实研究过程中的目标混乱、页面损坏、文档矛盾和时间压力。尽管如此,AgentSim 仍然是有价值的基础设施,因为它把 grounded trace generation 和 final-answer scoring 分开。对文档智能和数据智能体来说,这类证据链非常重要。

主题连接: 文档智能、RAG 智能体、可核验轨迹、数据构造。

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

作者: Jinxiang Meng、Shaoping Huang、Fangyu Lei、Jingyu Guo、Haoxiang Liu、Jiahao Su、Sihan Wang、Yao Wang、Enrui Wang、Ye Yang、Hongze Chai、Jinming Lv、Anbang Yu、Huangjing Zhang、Yitong Zhang、Yiming Huang、Zeyao Ma、Shizhu He、Jun Zhao、Kang Liu
机构: 中国科学院自动化研究所、中国科学院大学、新加坡国立大学、中国人民大学
日期: arXiv,2026 年 4 月 28 日
链接: arXiv开放 HTMLHugging Face 论文页

DV-World 生命周期总览

这张总览图是我选择 DV-World 的原因。它同时覆盖原生 spreadsheet 图表操作、跨可视化框架的已有图表演化,以及带用户模拟器的交互澄清。这比“从一张干净表生成一张图”更接近真实数据工作。

DV-World 数据 grounding 分析

这张图把 table coverage、视觉质量和修复成功率放在一起看。左图显示,图表创建中数据覆盖和视觉美感存在正相关;右图拆分了不同 fix 类型的成功率。谨慎点在于,评测混合了规则检查和多模态模型 judge,所以评测框架本身也需要被审计。

DV-World 交互询问分析

这张交互图很有产品意义。询问用户可以提升结果,但只有当问题真正减少歧义时才有用。它纠正了一个常见假设:智能体“多问”不一定更好,关键是知道哪个歧义正在阻塞任务。

一句话核心 idea: DV-World 用原生表格操作、跨框架可视化演化和交互式意图对齐来评测数据可视化智能体,把可视化任务从代码沙盒推进到更真实的专业工作流。

为什么重要:数据智能体在代码环境里经常看起来不错,但一旦涉及 spreadsheet、图表对象、视觉检查、用户澄清和业务约束,就会暴露很多问题。DV-World 把这些摩擦纳入 benchmark,所以它不是普通图表生成论文,而是 data agent 评测。

Benchmark 分三块。DV-Sheet 测试 chart/dashboard 创建和诊断修复;DV-Evolution 要求智能体跨 Python、Apache ECharts、Vega-Lite、D3.js、Plotly.js 修改和重构已有视觉产物;DV-Interact 使用用户模拟器和 ambiguity taxonomy,迫使智能体决定什么时候问、问什么。整个 benchmark 有 260 个任务,包括 DV-Sheet 的 50 个创建、50 个修复、30 个 dashboard 任务,DV-Evolution 的 80 个任务,以及 DV-Interact 的 50 个任务。论文还报告了 51 种图表类型、DV-Sheet 平均 36.53 列和 11,583.36 行、每个交互任务平均 3.17 个歧义点。

实验结果并不乐观。原生 spreadsheet 可视化里,最强模型整体分数仍在 40 左右;正文强调 Gemini-3-Pro 的峰值为 40.48%,GPT-5.2 和 DeepSeek-V3.2 也没有超过 38%。DV-Evolution 稍好,但跨框架迁移仍然困难;论文报告 Gemini-3-Pro 总分 51.44%,且不同可视化库之间差异明显。DV-Interact 中 Grok-4 以 40.43% 领先,但论文强调 proactive reasoning 和澄清质量仍是瓶颈。

我最想回看的其实是错误分析。DV-Sheet 的创建和修复里,data accuracy 是主要错误源:论文报告创建错误中数据准确性超过一半,修复任务平均 69.31% 的错误来自数据准确性。Dashboard 的主要错误则转向视觉设计,平均占 45.71%。这说明当前智能体经常能产出“像图表的东西”,但仍然丢失表格值、视觉编码和用户分析意图之间的关系。

我的判断是,DV-World 的价值在于同时测试多个契约:数值保真、视觉语义、软件环境和用户意图。风险是评测复杂度。混合打分在这里大概不可避免,但读者也必须审计 evaluator。我会把 DV-World 当作诊断套件,而不是只看一个总分的排行榜。

主题连接: 数据智能体、表格与文档智能、视觉 grounding、交互式工作流。

MoRFI: Monotonic Sparse Autoencoder Feature Identification

作者: Dimitris Dimakopoulos、Shay B. Cohen、Ioannis Konstas
机构: 爱丁堡大学、赫瑞瓦特大学
日期: arXiv,2026 年 4 月 29 日
链接: arXiv开放 HTML

MoRFI 单 latent steering

这张图展示了 MoRFI 不只是相关性筛选的原因。作者先找出随 fine-tuning 条件单调变化的 SAE latent,再对单个 latent 做 steering,并与 control latent 对比。右侧控制组很关键:它检验效果是否来自有针对性的特征,而不是随便扰动 residual stream。

MoRFI 复合方向对比

这张图比较了 known-to-unknown 的复合方向和单个高影响 latent。论文报告,减去复合方向通常有帮助,但 MoRFI 选出的单 latent 往往带来更大改善。这个结果支持一种稀疏机制解释:有害的 fine-tuning shift 并不是均匀分布在整个方向上。

一句话核心 idea: MoRFI 研究为什么在新事实上做监督微调可能增加幻觉。它用 sparse autoencoder 找出随可控微调条件单调变化的 latent,再通过 steering 检查这些 latent 是否真的影响模型访问预训练知识的能力。

为什么和智能体有关:智能体行为越来越多地来自后训练、工具使用数据、合成轨迹和领域适配。如果加入新事实或技能会损伤模型对旧知识的访问,最终部署可靠性可能在 benchmark 之外悄悄下降。MoRFI 给了一个观察这种问题的机制工具。

实验设计相对克制。作者在 EntityQuestions 派生的 closed-book QA 上微调 Llama 3.1 8B、Gemma 2 9B 和 Mistral 7B v0.3,控制两个变量:微调样本中对预训练模型未知的事实比例,以及训练 epoch 数。随后收集中间 residual stream 激活,通过预训练 SAE 得到样本、属性设置、特征和时间构成的四维激活张量。MoRFI 用 bootstrap 和统计检验筛出单调变化的 SAE feature,再用 activation steering 测试这些 feature 是否对准确率有因果影响。

证据比较具体。附录报告数据划分为 81,700 个训练样本、10,725 个 dev 样本和 10,481 个 test 样本。论文显示,微调混合中未知事实比例越高,三个模型的测试表现越差,训练更久时影响更强。跨模型 steering 结果里,单 latent 干预能恢复相当一部分因未知事实微调而丢失的准确率;论文报告不同模型和方向设置下的恢复比例大约在 69% 到 85% 之间。以 Llama 3.1 8B 为例,完全未知事实微调 baseline 准确率为 0.178,已知事实 baseline 为 0.355,部分选中 latent 干预能把未知事实 checkpoint 推到 0.238。

我的保留是适用范围。这是一个特定的 closed-book QA 设置,包含特定模型、SAE、Wikidata 关系和微调混合;它不能证明所有后训练幻觉都有同一种稀疏方向结构。但论文有价值,因为它把“fine-tuning 会伤害知识”这种笼统说法变成了可检验机制:找单调 latent、扰动 latent、测知识访问是否恢复。

我会把 MoRFI 和前三篇放在一起读:FutureWorld、AgentSim、DV-World 都会生成新的智能体数据和反馈;MoRFI 提醒我们,增加数据并不天然安全。后训练闭环越自动化,就越需要监控模型内部到底发生了什么变化。

主题连接: 大模型机理、后训练可靠性、稀疏自编码器分析、智能体训练风险。

阅读优先级和下期问题

如果目标是智能体训练,我会先读 FutureWorld,因为延迟真实奖励是一个重要设计变化。如果目标是可审计的数据和文档工作流,我会把 AgentSim 与 DV-World 放在一起读:前者关注轨迹构造,后者关注真实数据可视化任务。MoRFI 则应该放在所有后训练论文旁边,因为它问的是训练后模型内部知识访问发生了什么。

下一期我想继续追三个问题:live environment 能不能给延迟标签附带置信度;trace simulator 能不能处理更混乱、互相矛盾的证据;后训练管线能否在部署失败出现前,监测到模型内部知识访问能力受损。