把证据从提示词里移出来

6 minute read

Published: May 03, 2026

TL;DR：5 月 1 日到 3 日目标主题里的 arXiv 新稿很少，所以本期在去重后扩展到 4 月 30 日最新窗口。我选了三篇都在把证据移出 prompt 的论文：Claw-Eval-Live 用动态需求信号刷新 workflow-agent 评测，并按可观察动作打分；ObjectGraph 把文档变成可遍历的有类型图，而不是整段注入上下文；CIRM 在推理时干预 reward model 激活，降低格式捷径变成训练标签的风险。

本期我在看什么

最近几期已经反复讲过工作板、checkpoint、trace monitor 和漂移前检查。我不想再写一篇“agent 需要显式状态”的同构文章。本期更具体的问题是：当 agent 离开聊天框，真正的证据应该放在哪里？

对 workflow agent 来说，证据应该在服务状态、审计日志、JSONL trace 和运行后的文件里。对文档智能体来说，证据应该进入文件格式，而不是只靠后挂的 retrieval 层。对 agentic training 来说，reward evidence 要先穿过 reward model 自己的捷径偏好，才会变成 DPO 训练数据。

我初筛了 Claw-Eval-Live、ObjectGraph、FlashRT、xmemory、SpecVQA、间接提示注入、multivector retrieval 和机制/数据选择论文。最后保留三篇，是因为它们都有开放 HTML、方法细节、可展示图表和可定位数字。本期也按近期反馈处理：每篇先引入领域问题，密集表格用 Markdown 重写，机制论文保留核心公式，而不是只写“他们干预了神经元”。

论文细读笔记

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

作者：Chenxin Li, Zhengyang Tang, Huangxin Lin, Yunlong Lin, Shijue Huang, Shengyuan Liu, Bowen Ye, Rang Li, Lei Li, Benyou Wang, Yixuan Yuan。
机构：香港中文大学；香港中文大学（深圳）；华南理工大学；厦门大学；香港科技大学；北京大学；香港大学。
日期/来源：2026 年 4 月 30 日，arXiv 预印本。
链接：arXiv | HTML | 项目页

Claw-Eval-Live benchmark overview

这张总览图适合作为入口，因为它把 benchmark 拆成两个相连的系统：需求信号管线和执行/评估循环。这里的任务不是普通 prompt，而是带 mock service、本地工作区、trace、grader 和状态写入结果的 workflow。需要谨慎的是，所谓 live signal 仍然来自公开 workflow 代理信号，很多企业内部自动化需求可能根本不会出现在这些公开数据里。

Claw-Eval-Live family heatmap

热力图比单个 leaderboard 更有信息量。它显示模型失败会按 workflow family 聚集：HR、管理、多系统业务流程比部分本地修复任务更难。我会把它理解为一个提醒：“agent 能力”不是单一标量，服务表面、审计路径和任务族同样决定难度。

Claw-Eval-Live metric landscape

这张图把 pass rate 和 overall completion 放在同一个平面里。最强模型彼此接近，但公开 release 中没有模型超过 70% pass rate。论文还报告在公开规则下有 19 个全模型通过任务和 27 个全模型失败任务，这说明 pass rate 要和 completion score、任务区分度一起读，不能当作干净的总排名。

一句话核心 idea：Claw-Eval-Live 希望用当前用户想自动化的 workflow 来构造评测，同时用受控服务和工作区里的可观察动作来打分。

为什么重要：agent benchmark 很容易过期。静态任务集有复现价值，但当用户自动化需求变化、服务接口变化、模型学会某个 benchmark 的习惯以后，静态 release 会越来越不像真实部署。论文的解法是把可刷新的信号层和可复现的时间戳 release 分开：benchmark 可以跟着需求走，但上个月的分数不因此失效。

方法拆解：

当前 release 从公开 workflow-demand signals 开始，包括 ClawHub Top-500 skills snapshot，并把这些信号聚成稳定 workflow pattern。
作者把 33 个 workflow pattern 压缩成 6 个 signal family，给 family 分配权重，再把 24 个 task seed 扩展成 178 个候选任务。
通过区分度和 family coverage 约束选出 105 个公开任务，其中 87 个是 service-backed workflow，18 个是本地 workspace repair。
每个任务都在固定 fixture、受控服务或工作区里运行，留下 JSONL trace、audit log、运行后 artifact 和 grader。证据足够时用确定性检查，语义维度才用结构化 LLM judging，并把 judge 输入约束在 trace 和 rubric 上。

论文中的公开 leaderboard 摘要。

模型	Pass rate	Pass count	Overall completion
Claude Opus 4.6	66.7%	70 / 105	83.6
GPT-5.4	63.8%	67 / 105	81.7
Claude Sonnet 4.6	61.9%	65 / 105	79.9
GLM-5	61.9%	65 / 105	78.1
Doubao Seed 2.0	43.8%	46 / 105	70.4

这组结果的重点不是谁第一，而是最强模型仍然失败了约三分之一任务，而且失败有结构。效率表还给了部署视角：GPT-5.4 在整套 release 上使用 1.26M tokens，估算 API 成本 6.27 美元，用时 104 分钟；Claude Opus 4.6 使用 3.32M tokens，估算成本 31.61 美元，用时 213 分钟。这些成本来自记录的 token 用量和当时 provider 标价，不是完整实验成本，但它让评测更像一个真实运维问题。

我的判断：我喜欢这篇，是因为它先要证据，再要文本。Service-backed workflow 通过 tool trace、service audit log、fixture 和 rubric 评估；workspace repair 通过命令 trace、运行后状态、artifact 和测试评估。弱点在 judge 依赖：语义打分用 GPT-5.4，而 GPT-5.4 也是被评测模型之一。作者通过 trace-grounded judge 输入降低风险，但我仍会把这类分数看作审计辅助估计，而不是独立人工裁决。

关联主题：data agents、workflow agents、live evaluation、可审计执行。

ObjectGraph: From Document Injection to Knowledge Traversal

作者：Mohit Dubey；Open Gigantic。
机构：Open Gigantic；其他机构未注明。
日期/来源：2026 年 4 月 30 日，arXiv 预印本。
链接：arXiv | HTML

ObjectGraph query protocol architectures

这张图概括了论文的系统主张。小文件场景里，agent 可以一次读取 index，然后调用 resolve_context；大文件场景里，router agent 选择 node ID，executor 只收到解析后的 payload。最关键的细节是 Architecture B 里没有共享 history：executor 不靠事后总结减少上下文，而是在结构上避免 context compounding。

ObjectGraph mean token consumption

token 成本图说明这不只是一个语法提案。在 skill file、runbook、execution plan、technical doc 和 knowledge base 上，ObjectGraph 传给模型的文本明显少于 Markdown 全量注入和 RAG。需要谨慎的是，评测文档是作者构造的，格式本身也还很新，所以这些节省更像方向验证，而不是生态采用已经成立。

ObjectGraph multi-turn context compounding

这条曲线是最 agent-specific 的结果。五轮工作流里，Markdown 因为每次读取都会进入对话历史，累计 token 增长很快；ObjectGraph Architecture B 只给 executor 传相关 payload，因此接近线性。论文报告第 5 轮 Markdown 累计 46,000 tokens，而 Architecture B 为 1,260 tokens，约 36.5 倍差距。

一句话核心 idea：ObjectGraph 认为 agent 文档应该作为有类型图被遍历，而不是作为线性文本被注入，并提出 .og 作为兼容 Markdown 的文件格式，原生支持节点、边、访问范围、断言和 changelog。

为什么重要：很多 agent memory 基础设施先把文档当字符串，再外挂 retrieval。这样可以搜索，但不能表达哪个角色该看到哪个节点、哪个 procedure step 依赖哪个 warning、任务是否执行成功、上一轮以后文档变了什么。如果 agent 在多轮循环里反复读同一份 runbook，问题不只是 token 成本；无关上下文会稀释注意力，也可能跨角色泄露信息。

方法拆解：

ObjectGraph 把文档定义为有类型有向图。节点可以带 summary、dense content、steps、warning、code、assertion 和 metadata；边表达 prerequisite、reference、alternative 和 conditional path。
.og 是 Markdown 的严格超集：每个 Markdown 文件仍然是合法 .og，但 .og 增加 ::index、node ID、content-type tag、role scope、assertion 和 changelog block。
查询协议只有两个 primitive：search_index 找相关节点，resolve_context 取回 payload。Architecture B 用 router/executor 切分，让 executor 不接收 router history。
Markdown 到 ObjectGraph 的 transpiler 由三步组成：确定性结构抽取、受限 LLM metadata synthesis、fidelity verification。

论文中的任务准确率摘要。

任务类型	Markdown	RAG	ObjectGraph	显式边 ObjectGraph
Information lookup	91.2	87.4	92.1	92.3
Procedure execution	88.6	83.1	89.4	90.1
Role-conditional access	76.4	71.2	94.8	95.1
Cross-node reasoning	82.1	74.6	77.9	80.3
Update detection	61.3	54.7	91.4	91.6
Assertion verify	52.8	48.1	96.3	96.5
Mean	76.0	71.0	90.1	90.8

这张表是我最看重的证据。ObjectGraph 在格式本身提供新能力的地方提升最大：role-conditional access、update detection、assertion verification 和 multi-agent handoff。薄弱项是 cross-node reasoning，因为全量 Markdown 注入会隐式给到上下文；显式边能缩小差距，但还没完全解决。

ObjectGraph feature ablation

消融图把 .og 的特性拆开，而不是把它当成一个神奇包装。Index routing 和 dense layer 贡献了大部分 token savings，skip-if-known、role scoping 和 delta loading 各自提供较小增量。这支持论文的主张：收益来自原生文档结构，不只是更短的序列化。

评测使用 240 份文档，覆盖五类文档、八类任务，每个 document-task pair 执行五次。文档长度从 200 到 15,000 tokens，均值 2,340，中位数 1,680。论文报告 mean token consumption 从 2,340 降到 187 tokens，减少 92.0%；还报告最高 95.3% token reduction，且没有统计显著的准确率下降。transpiler 在 180 份 held-out 文档上 mean fidelity 为 0.987；18 人小规模用户研究里，authoring burden 均值为 2.8/7。

我的判断：即使 .og 以后不是最终标准，这篇也值得看。它抓住了真实产品问题：agent-readable document 需要把 access control、dependency structure、executable assertion 和 delta loading 放在文件表面里。我会谨慎看待标准化叙事，也会关注它目前不支持 cross-file edge resolution。下一步硬测试不是单个 runbook 能否转换，而是一支团队能否长期维护几百个 .og 文件，并且不破坏图链接和写作纪律。

关联主题：document intelligence、data agents、agent memory、RAG infrastructure。

Debiasing Reward Models via Causally Motivated Inference-Time Intervention

作者：Kazutoshi Shinoda, Kosuke Nishida, Kyosuke Nishida。
机构：Human Informatics Labs, NTT, Inc.
日期/来源：ACL 2026 Main Conference；arXiv 版本 2026 年 4 月 30 日。
链接：arXiv | HTML

CIRM overview

这张总览图展示了两步：先找出与风格捷径相关的 reward-model 神经元，再在推理时把这些激活替换成验证集上的中位数。目标不只是 length bias；论文同时研究长度、段落数、词汇重叠、感叹号和 Markdown 加粗。需要谨慎的是，这些 bias 是预先定义且偏表层风格的，所以它不是通用真实性检测器。

CIRM causal graph

这张因果图很小，但它是技术核心。论文把输入看作 treatment，把 reward 看作 outcome，把 bias-specific neuron activation 看作 mediator。干预目标是让两个回答在相同 mediator 值下被打分，从而减少风格捷径主导 reward difference 的机会。

一句话核心 idea：CIRM 找出 reward model 中与风格捷径相关的神经元，并在推理时把这些激活钳到中位数，从而估计 controlled direct effect，而不是普通 reward difference。

为什么重要：reward model 会把偏好变成训练数据。如果 reward model 偏好长回答、加粗、感叹号或表层重叠，这种偏好可能进入 DPO 数据，最后进入 policy。长度惩罚太粗，可能会惩罚必要细节。这篇问的是：能否在 reward model 内部去掉捷径，同时保留主要 reward 信号？

论文从 Bradley-Terry reward model 出发：

\[p(y_1 \succ y_2 \mid q)=\sigma(r_\theta(x_1)-r_\theta(x_2)).\]

CIRM 用因果语言重写比较。如果 (m(x)) 是 bias-specific neurons 的激活向量，普通 reward difference 估计的是 total effect：

\[\widehat{\mathrm{TE}} = r_\theta(x_1,m(x_1))-r_\theta(x_2,m(x_2)).\]

干预则把 mediator 固定为验证集上的中位数 (m^*)：

\[\widehat{\mathrm{CDE}} = r_\theta(x_1,m^\*)-r_\theta(x_2,m^\*).\]

方法拆解：

在 500 个 RewardBench validation instances 上，方法计算 reward model 的 last-token neuron activation 和预定义 spurious feature value。
对每类 bias，用 Spearman’s (\rho) 对神经元排序，把 top 和 bottom (k) 个神经元定义为 bias-specific。论文在 ({50,100,200,500,1000,2000,5000}) 中为五类 bias 联合调 (k)。
推理时把这些神经元激活替换为验证集上的中位数；测试的 reward model 中，被改动神经元少于总数的 2%。
作者先在 RewardBench 和 RM-Bench 上直接评估 debiased reward model，再用它标注 preference data 做 DPO，并在 AlpacaEval 2.0、MT-Bench 和 TruthfulQA 上看下游效果。

GRM bias-neuron distribution for length

神经元直方图显示 bias-specific neurons 并不是均匀散布在模型里。以 GRM 的 length bias 为例，Spearman 相关最高和最低的神经元集中在特定层附近。这支持论文的机制判断：风格捷径有足够局部化的 footprint，可以做 targeted intervention；但局部化不等于这些神经元只表示这个 bias。

论文中的下游 DPO 评估摘要。

Base policy 与标注 RM	AlpacaEval 2.0 LCWR	AlpacaEval 2.0 WR	平均长度	MT-Bench
Llama-3-8B-Instruct, no DPO	26.09	32.06	1968	7.34
Llama-3-8B + GRM	37.53	47.47	2193	7.45
Llama-3-8B + GRM + CIRM	41.89	50.13	2201	7.53
Llama-3-8B + FsfairX	37.78	49.74	2368	7.64
Llama-3-8B + FsfairX + CIRM	39.49	51.19	2345	7.62
Gemma-2-9B-it + FsfairX	55.32	58.56	1931	8.07
Gemma-2-9B-it + FsfairX + CIRM	57.76	60.52	1923	8.15
Gemma-2-9B-it + INF 70B RM	58.98	61.51	1919	8.11

这些数字不是夸张的大幅超越，这反而让我更愿意认真看。真正有用的结果是：带 CIRM 的小 reward model 在几个设置里同时提升 length-controlled win rate 和 raw win rate，而且没有 length-only penalty 常见的过度变短问题。与 INF 的比较也很实际：在这些评测里，2B 或 7B reward model 加 targeted intervention，作为 preference annotator 可以接近 70B reward model。

我的判断：CIRM 更像是 agentic training 的 reward-model hygiene。它不解决所有 reward hacking，也只覆盖作者预定义的 bias。但它给了一个具体检查点：reward model 到底是在训练 policy 学 helpfulness，还是在训练它学格式习惯？我下一步会关注这种思路能否从表层 style feature 扩展到 tool-use artifact，例如 citation 形状、JSON 冗长度、未验证但自信的 claim，或者看起来干净但动作错误的 trace。

关联主题：large model mechanisms、reward models、agentic training、interpretability-guided post-training。

阅读优先级和下期问题

如果目标是 data/document agent 的产品设计，我会先读 ObjectGraph。哪怕 .og 语法以后会变，file-format 这个问题本身已经很有用。如果目标是 benchmark design 或 agent evaluation，我会先读 Claw-Eval-Live。CIRM 则最适合放在 post-training 线索里继续追，它给了 reward-model shortcut 和 policy update 之间一个小而可测的干预点。

我下期想继续追三个问题：live workflow benchmark 能否暴露失败证据而不退化成 judge-model benchmark；文档格式能否支持跨文件图链接而不让作者维护成本爆炸；reward-model intervention 能否从表层风格扩展到部署 artifact，而不只是长短、加粗和感叹号。