把证据从提示词里移出来
Published:
TL;DR:5 月 1 日到 3 日目标主题里的 arXiv 新稿很少,所以本期在去重后扩展到 4 月 30 日最新窗口。我选了三篇都在把证据移出 prompt 的论文:Claw-Eval-Live 用动态需求信号刷新 workflow-agent 评测,并按可观察动作打分;ObjectGraph 把文档变成可遍历的有类型图,而不是整段注入上下文;CIRM 在推理时干预 reward model 激活,降低格式捷径变成训练标签的风险。
本期我在看什么
最近几期已经反复讲过工作板、checkpoint、trace monitor 和漂移前检查。我不想再写一篇“agent 需要显式状态”的同构文章。本期更具体的问题是:当 agent 离开聊天框,真正的证据应该放在哪里?
对 workflow agent 来说,证据应该在服务状态、审计日志、JSONL trace 和运行后的文件里。对文档智能体来说,证据应该进入文件格式,而不是只靠后挂的 retrieval 层。对 agentic training 来说,reward evidence 要先穿过 reward model 自己的捷径偏好,才会变成 DPO 训练数据。
我初筛了 Claw-Eval-Live、ObjectGraph、FlashRT、xmemory、SpecVQA、间接提示注入、multivector retrieval 和机制/数据选择论文。最后保留三篇,是因为它们都有开放 HTML、方法细节、可展示图表和可定位数字。本期也按近期反馈处理:每篇先引入领域问题,密集表格用 Markdown 重写,机制论文保留核心公式,而不是只写“他们干预了神经元”。
论文细读笔记
Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows
作者:Chenxin Li, Zhengyang Tang, Huangxin Lin, Yunlong Lin, Shijue Huang, Shengyuan Liu, Bowen Ye, Rang Li, Lei Li, Benyou Wang, Yixuan Yuan。
机构:香港中文大学;香港中文大学(深圳);华南理工大学;厦门大学;香港科技大学;北京大学;香港大学。
日期/来源:2026 年 4 月 30 日,arXiv 预印本。
链接:arXiv | HTML | 项目页

这张总览图适合作为入口,因为它把 benchmark 拆成两个相连的系统:需求信号管线和执行/评估循环。这里的任务不是普通 prompt,而是带 mock service、本地工作区、trace、grader 和状态写入结果的 workflow。需要谨慎的是,所谓 live signal 仍然来自公开 workflow 代理信号,很多企业内部自动化需求可能根本不会出现在这些公开数据里。

热力图比单个 leaderboard 更有信息量。它显示模型失败会按 workflow family 聚集:HR、管理、多系统业务流程比部分本地修复任务更难。我会把它理解为一个提醒:“agent 能力”不是单一标量,服务表面、审计路径和任务族同样决定难度。

这张图把 pass rate 和 overall completion 放在同一个平面里。最强模型彼此接近,但公开 release 中没有模型超过 70% pass rate。论文还报告在公开规则下有 19 个全模型通过任务和 27 个全模型失败任务,这说明 pass rate 要和 completion score、任务区分度一起读,不能当作干净的总排名。
一句话核心 idea:Claw-Eval-Live 希望用当前用户想自动化的 workflow 来构造评测,同时用受控服务和工作区里的可观察动作来打分。
为什么重要:agent benchmark 很容易过期。静态任务集有复现价值,但当用户自动化需求变化、服务接口变化、模型学会某个 benchmark 的习惯以后,静态 release 会越来越不像真实部署。论文的解法是把可刷新的信号层和可复现的时间戳 release 分开:benchmark 可以跟着需求走,但上个月的分数不因此失效。
方法拆解:
- 当前 release 从公开 workflow-demand signals 开始,包括 ClawHub Top-500 skills snapshot,并把这些信号聚成稳定 workflow pattern。
- 作者把 33 个 workflow pattern 压缩成 6 个 signal family,给 family 分配权重,再把 24 个 task seed 扩展成 178 个候选任务。
- 通过区分度和 family coverage 约束选出 105 个公开任务,其中 87 个是 service-backed workflow,18 个是本地 workspace repair。
- 每个任务都在固定 fixture、受控服务或工作区里运行,留下 JSONL trace、audit log、运行后 artifact 和 grader。证据足够时用确定性检查,语义维度才用结构化 LLM judging,并把 judge 输入约束在 trace 和 rubric 上。
论文中的公开 leaderboard 摘要。
| 模型 | Pass rate | Pass count | Overall completion |
|---|---|---|---|
| Claude Opus 4.6 | 66.7% | 70 / 105 | 83.6 |
| GPT-5.4 | 63.8% | 67 / 105 | 81.7 |
| Claude Sonnet 4.6 | 61.9% | 65 / 105 | 79.9 |
| GLM-5 | 61.9% | 65 / 105 | 78.1 |
| Doubao Seed 2.0 | 43.8% | 46 / 105 | 70.4 |
这组结果的重点不是谁第一,而是最强模型仍然失败了约三分之一任务,而且失败有结构。效率表还给了部署视角:GPT-5.4 在整套 release 上使用 1.26M tokens,估算 API 成本 6.27 美元,用时 104 分钟;Claude Opus 4.6 使用 3.32M tokens,估算成本 31.61 美元,用时 213 分钟。这些成本来自记录的 token 用量和当时 provider 标价,不是完整实验成本,但它让评测更像一个真实运维问题。
我的判断:我喜欢这篇,是因为它先要证据,再要文本。Service-backed workflow 通过 tool trace、service audit log、fixture 和 rubric 评估;workspace repair 通过命令 trace、运行后状态、artifact 和测试评估。弱点在 judge 依赖:语义打分用 GPT-5.4,而 GPT-5.4 也是被评测模型之一。作者通过 trace-grounded judge 输入降低风险,但我仍会把这类分数看作审计辅助估计,而不是独立人工裁决。
关联主题:data agents、workflow agents、live evaluation、可审计执行。
ObjectGraph: From Document Injection to Knowledge Traversal
作者:Mohit Dubey;Open Gigantic。
机构:Open Gigantic;其他机构未注明。
日期/来源:2026 年 4 月 30 日,arXiv 预印本。
链接:arXiv | HTML

这张图概括了论文的系统主张。小文件场景里,agent 可以一次读取 index,然后调用 resolve_context;大文件场景里,router agent 选择 node ID,executor 只收到解析后的 payload。最关键的细节是 Architecture B 里没有共享 history:executor 不靠事后总结减少上下文,而是在结构上避免 context compounding。

token 成本图说明这不只是一个语法提案。在 skill file、runbook、execution plan、technical doc 和 knowledge base 上,ObjectGraph 传给模型的文本明显少于 Markdown 全量注入和 RAG。需要谨慎的是,评测文档是作者构造的,格式本身也还很新,所以这些节省更像方向验证,而不是生态采用已经成立。

这条曲线是最 agent-specific 的结果。五轮工作流里,Markdown 因为每次读取都会进入对话历史,累计 token 增长很快;ObjectGraph Architecture B 只给 executor 传相关 payload,因此接近线性。论文报告第 5 轮 Markdown 累计 46,000 tokens,而 Architecture B 为 1,260 tokens,约 36.5 倍差距。
一句话核心 idea:ObjectGraph 认为 agent 文档应该作为有类型图被遍历,而不是作为线性文本被注入,并提出 .og 作为兼容 Markdown 的文件格式,原生支持节点、边、访问范围、断言和 changelog。
为什么重要:很多 agent memory 基础设施先把文档当字符串,再外挂 retrieval。这样可以搜索,但不能表达哪个角色该看到哪个节点、哪个 procedure step 依赖哪个 warning、任务是否执行成功、上一轮以后文档变了什么。如果 agent 在多轮循环里反复读同一份 runbook,问题不只是 token 成本;无关上下文会稀释注意力,也可能跨角色泄露信息。
方法拆解:
- ObjectGraph 把文档定义为有类型有向图。节点可以带 summary、dense content、steps、warning、code、assertion 和 metadata;边表达 prerequisite、reference、alternative 和 conditional path。
.og是 Markdown 的严格超集:每个 Markdown 文件仍然是合法.og,但.og增加::index、node ID、content-type tag、role scope、assertion 和 changelog block。- 查询协议只有两个 primitive:
search_index找相关节点,resolve_context取回 payload。Architecture B 用 router/executor 切分,让 executor 不接收 router history。 - Markdown 到 ObjectGraph 的 transpiler 由三步组成:确定性结构抽取、受限 LLM metadata synthesis、fidelity verification。
论文中的任务准确率摘要。
| 任务类型 | Markdown | RAG | ObjectGraph | 显式边 ObjectGraph |
|---|---|---|---|---|
| Information lookup | 91.2 | 87.4 | 92.1 | 92.3 |
| Procedure execution | 88.6 | 83.1 | 89.4 | 90.1 |
| Role-conditional access | 76.4 | 71.2 | 94.8 | 95.1 |
| Cross-node reasoning | 82.1 | 74.6 | 77.9 | 80.3 |
| Update detection | 61.3 | 54.7 | 91.4 | 91.6 |
| Assertion verify | 52.8 | 48.1 | 96.3 | 96.5 |
| Mean | 76.0 | 71.0 | 90.1 | 90.8 |
这张表是我最看重的证据。ObjectGraph 在格式本身提供新能力的地方提升最大:role-conditional access、update detection、assertion verification 和 multi-agent handoff。薄弱项是 cross-node reasoning,因为全量 Markdown 注入会隐式给到上下文;显式边能缩小差距,但还没完全解决。

消融图把 .og 的特性拆开,而不是把它当成一个神奇包装。Index routing 和 dense layer 贡献了大部分 token savings,skip-if-known、role scoping 和 delta loading 各自提供较小增量。这支持论文的主张:收益来自原生文档结构,不只是更短的序列化。
评测使用 240 份文档,覆盖五类文档、八类任务,每个 document-task pair 执行五次。文档长度从 200 到 15,000 tokens,均值 2,340,中位数 1,680。论文报告 mean token consumption 从 2,340 降到 187 tokens,减少 92.0%;还报告最高 95.3% token reduction,且没有统计显著的准确率下降。transpiler 在 180 份 held-out 文档上 mean fidelity 为 0.987;18 人小规模用户研究里,authoring burden 均值为 2.8/7。
我的判断:即使 .og 以后不是最终标准,这篇也值得看。它抓住了真实产品问题:agent-readable document 需要把 access control、dependency structure、executable assertion 和 delta loading 放在文件表面里。我会谨慎看待标准化叙事,也会关注它目前不支持 cross-file edge resolution。下一步硬测试不是单个 runbook 能否转换,而是一支团队能否长期维护几百个 .og 文件,并且不破坏图链接和写作纪律。
关联主题:document intelligence、data agents、agent memory、RAG infrastructure。
Debiasing Reward Models via Causally Motivated Inference-Time Intervention
作者:Kazutoshi Shinoda, Kosuke Nishida, Kyosuke Nishida。
机构:Human Informatics Labs, NTT, Inc.
日期/来源:ACL 2026 Main Conference;arXiv 版本 2026 年 4 月 30 日。
链接:arXiv | HTML

这张总览图展示了两步:先找出与风格捷径相关的 reward-model 神经元,再在推理时把这些激活替换成验证集上的中位数。目标不只是 length bias;论文同时研究长度、段落数、词汇重叠、感叹号和 Markdown 加粗。需要谨慎的是,这些 bias 是预先定义且偏表层风格的,所以它不是通用真实性检测器。

这张因果图很小,但它是技术核心。论文把输入看作 treatment,把 reward 看作 outcome,把 bias-specific neuron activation 看作 mediator。干预目标是让两个回答在相同 mediator 值下被打分,从而减少风格捷径主导 reward difference 的机会。
一句话核心 idea:CIRM 找出 reward model 中与风格捷径相关的神经元,并在推理时把这些激活钳到中位数,从而估计 controlled direct effect,而不是普通 reward difference。
为什么重要:reward model 会把偏好变成训练数据。如果 reward model 偏好长回答、加粗、感叹号或表层重叠,这种偏好可能进入 DPO 数据,最后进入 policy。长度惩罚太粗,可能会惩罚必要细节。这篇问的是:能否在 reward model 内部去掉捷径,同时保留主要 reward 信号?
论文从 Bradley-Terry reward model 出发:
\[p(y_1 \succ y_2 \mid q)=\sigma(r_\theta(x_1)-r_\theta(x_2)).\]CIRM 用因果语言重写比较。如果 (m(x)) 是 bias-specific neurons 的激活向量,普通 reward difference 估计的是 total effect:
\[\widehat{\mathrm{TE}} = r_\theta(x_1,m(x_1))-r_\theta(x_2,m(x_2)).\]干预则把 mediator 固定为验证集上的中位数 (m^*):
\[\widehat{\mathrm{CDE}} = r_\theta(x_1,m^\*)-r_\theta(x_2,m^\*).\]方法拆解:
- 在 500 个 RewardBench validation instances 上,方法计算 reward model 的 last-token neuron activation 和预定义 spurious feature value。
- 对每类 bias,用 Spearman’s (\rho) 对神经元排序,把 top 和 bottom (k) 个神经元定义为 bias-specific。论文在 ({50,100,200,500,1000,2000,5000}) 中为五类 bias 联合调 (k)。
- 推理时把这些神经元激活替换为验证集上的中位数;测试的 reward model 中,被改动神经元少于总数的 2%。
- 作者先在 RewardBench 和 RM-Bench 上直接评估 debiased reward model,再用它标注 preference data 做 DPO,并在 AlpacaEval 2.0、MT-Bench 和 TruthfulQA 上看下游效果。

神经元直方图显示 bias-specific neurons 并不是均匀散布在模型里。以 GRM 的 length bias 为例,Spearman 相关最高和最低的神经元集中在特定层附近。这支持论文的机制判断:风格捷径有足够局部化的 footprint,可以做 targeted intervention;但局部化不等于这些神经元只表示这个 bias。
论文中的下游 DPO 评估摘要。
| Base policy 与标注 RM | AlpacaEval 2.0 LCWR | AlpacaEval 2.0 WR | 平均长度 | MT-Bench |
|---|---|---|---|---|
| Llama-3-8B-Instruct, no DPO | 26.09 | 32.06 | 1968 | 7.34 |
| Llama-3-8B + GRM | 37.53 | 47.47 | 2193 | 7.45 |
| Llama-3-8B + GRM + CIRM | 41.89 | 50.13 | 2201 | 7.53 |
| Llama-3-8B + FsfairX | 37.78 | 49.74 | 2368 | 7.64 |
| Llama-3-8B + FsfairX + CIRM | 39.49 | 51.19 | 2345 | 7.62 |
| Gemma-2-9B-it + FsfairX | 55.32 | 58.56 | 1931 | 8.07 |
| Gemma-2-9B-it + FsfairX + CIRM | 57.76 | 60.52 | 1923 | 8.15 |
| Gemma-2-9B-it + INF 70B RM | 58.98 | 61.51 | 1919 | 8.11 |
这些数字不是夸张的大幅超越,这反而让我更愿意认真看。真正有用的结果是:带 CIRM 的小 reward model 在几个设置里同时提升 length-controlled win rate 和 raw win rate,而且没有 length-only penalty 常见的过度变短问题。与 INF 的比较也很实际:在这些评测里,2B 或 7B reward model 加 targeted intervention,作为 preference annotator 可以接近 70B reward model。
我的判断:CIRM 更像是 agentic training 的 reward-model hygiene。它不解决所有 reward hacking,也只覆盖作者预定义的 bias。但它给了一个具体检查点:reward model 到底是在训练 policy 学 helpfulness,还是在训练它学格式习惯?我下一步会关注这种思路能否从表层 style feature 扩展到 tool-use artifact,例如 citation 形状、JSON 冗长度、未验证但自信的 claim,或者看起来干净但动作错误的 trace。
关联主题:large model mechanisms、reward models、agentic training、interpretability-guided post-training。
阅读优先级和下期问题
如果目标是 data/document agent 的产品设计,我会先读 ObjectGraph。哪怕 .og 语法以后会变,file-format 这个问题本身已经很有用。如果目标是 benchmark design 或 agent evaluation,我会先读 Claw-Eval-Live。CIRM 则最适合放在 post-training 线索里继续追,它给了 reward-model shortcut 和 policy update 之间一个小而可测的干预点。
我下期想继续追三个问题:live workflow benchmark 能否暴露失败证据而不退化成 judge-model benchmark;文档格式能否支持跨文件图链接而不让作者维护成本爆炸;reward-model intervention 能否从表层风格扩展到部署 artifact,而不只是长短、加粗和感叹号。