从编译式智能体到选择性记忆与深度研究推导债

3 minute read

Published:

TL;DR:本期看的不是“模型又会了什么”,而是智能体周围的运行时怎么变得更可控。Agent JIT 把网页智能体任务编译成带状态不变量和延迟调度的可执行计划。Mem-pi 把记忆做成一个会选择是否发声的生成式策略。DeepWeb-Bench 则提醒我们,深度研究智能体的主要错误往往不在“找不到资料”,而在推导、校准和跨来源协调。

本期我在看什么

最近几期连续看了 verifier、可执行环境、预执行检查和证据图。这条线仍然重要,但如果每期都用同一个答案解释所有问题,就会变钝。本期我换了一个角度:智能体的运行时本身能不能承担更多工作?比如执行前先编译动作,记忆只在有用时介入,或者把深度研究的长报告拆成可审计的单元格。

我初筛了 5 月 19-20 日的新论文和社区线索,包括 Agentic Model Checking、GaussianDream、CoPhy、Structured Layout Priors、ActGuide-RL、生产级智能体运行时架构,以及中文媒体里提到的多智能体系统和科学协议生成工作。最后只保留三篇,因为它们都有开放 arXiv HTML、方法细节充足,图表也足够支撑一篇真正的 mini explainer。

论文细读笔记

Agent JIT Compilation for Latency-Optimizing Web Agent Planning and Scheduling

作者:Caleb Winston、Ron Yifeng Wang、Azalia Mirhoseini、Christos Kozyrakis
机构:Stanford University
日期 / 会议:arXiv,2026 年 5 月 20 日;ICML 2026 接收
链接:arXivarXiv HTML

一句话核心 idea:Agent JIT 把自然语言网页任务编译成可执行代码计划,先检查工具前置条件和后置条件,再用历史延迟分布决定串行、并行或 hedge 执行。它想替代那种“截图一次、问模型一次、点一下、再截图”的慢循环。

为什么重要:网页智能体很多失败并不神秘,就是重复让模型重新决定每一步,既慢又容易把动作顺序搞错。如果一个网页任务有稳定状态转移、重复元素和可预测延迟,系统就不该像第一次打开浏览器一样行动。这里真正有价值的是编译边界:每个工具必须说明运行前需要什么状态、运行后保证什么状态。

Agent JIT 架构

这张图把离线缓存和在线编译连接起来。执行轨迹先沉淀出 planner cache,把动作映射到可复用工具代码;同时沉淀 scheduler cache,把页面元素映射到延迟分布。运行时,JIT-Planner 采样多个代码计划、验证状态流、选择最低成本的有效计划;JIT-Scheduler 再决定应该串行、并行还是 hedge。需要谨慎的是,这套机制依赖网页环境中存在足够可复用的结构,一旦 UI、认证流或后端行为频繁漂移,缓存和延迟模型都要重新维护。

方法可以拆成三步。第一,每个工具暴露 prepost、可选运行时检查、输入输出 schema 和执行代码;只有当前抽象状态覆盖下一个工具的前置条件时,计划才算静态有效。第二,planner 并行采样多个代码计划,构建控制流图,遇到破坏状态流的计划就提前拒绝,同时统计工具调用和昂贵 ai_eval 调用的成本。第三,scheduler 让模型预测不同策略会接触哪些页面元素,再从离线学习到的延迟分布里做 Monte Carlo 采样,选期望延迟最低的策略。

主结果很直接:

模型Browser-Use 延迟Browser-Use 准确率JIT-Planner 延迟JIT-Planner 准确率
GPT-4.1150.1 秒61%15.4 秒90%
Gemini-2.5-Flash100.3 秒59%7.2 秒94%
Gemini-2.5-Pro115.9 秒77%12.6 秒97%

在 5 个网页应用上,论文报告 JIT-Planner 相比 Browser-Use 达到 10.4 倍加速和 +28 个百分点准确率。只加缓存的 Browser-Use baseline 有帮助,但没有缩小到同一量级,说明收益不只是缓存截图或 DOM。工具协议也有清晰作用:在计划生成分析里,遵守协议的 manifest 让 GPT-4.1、Gemini-2.5-Flash、Gemini-2.5-Pro 的有效计划率分别提高 +13.0、+10.7、+16.8 个百分点。

Agent JIT 调度权衡

这张图讲的是调度,不是计划生成。它把固定串行、固定并行、固定 hedge 和 JIT-Scheduler 放在同一个延迟-准确率前沿上比较。这里的 claim 不是“并行总是更好”,而是某些网页元素延迟方差很高,适合 hedge;另一些步骤串行反而更稳。把这个结果迁移到任意网站时要小心,因为延迟分布会随 UI、网络路径和后端负载变化。

在 scheduler 设置里,Gemini-2.5-Pro + JIT-Scheduler 达到 109.9 秒、86.4% 准确率,而 OpenAI CUA 是 258.7 秒、77.8%,论文报告为 2.4 倍加速。GPT-4.1 的 JIT-Scheduler 准确率与 OpenAI CUA 同为 77.8%,但时间降到 142.6 秒。Gemini-2.5-Flash 更快但准确率较低,这个细节很重要:调度不能弥补模型规划或感知能力的全部差距。

我的判断:我会继续追这篇,因为它把智能体执行当成系统问题,而不是只当成提示词问题。状态不变量和成本模型被显式拿出来之后,很多错误才有机会在执行前暴露。可能被高估的地方是泛化性:真实网站有不稳定组件、A/B 测试、隐藏权限和后端约束。下一步我想看的是,当应用持续变化时,工具不变量能否自动更新,以及状态流验证能否抓住那些“形式上有效、语义上错误”的计划。

关联主题:computer-use agents、智能体运行时、工具协议、延迟感知执行、可审计状态转移。

Mem-pi: Adaptive Memory through Learning When and What to Generate

作者:Xiaoqiang Wang、Chao Wang、Hadi Nekoei、Christopher Pal、Alexandre Lacoste、Spandana Gella、Bang Liu、Perouz Taslakian
机构:ServiceNow AI Research;Mila - Quebec AI Institute;Université de Montréal;Polytechnique Montréal;McGill University;CIFAR AI Chair
日期:arXiv,2026 年 5 月 20 日
链接:arXivarXiv HTML

一句话核心 idea:Mem-pi 不再把智能体记忆只看成相似片段检索,而是训练一个独立语言或视觉语言策略,根据当前任务生成具体 guidance,并且在不该介入时选择 abstain。它先从离线经验库蒸馏,再用下游智能体成败信号做强化学习。

为什么重要:很多 memory agent 的做法是从库里检索一段过去经验塞进上下文。匹配得好时这很有用,匹配得差时就是噪声,甚至会把智能体带偏。对长网页任务、终端任务或具身任务来说,记忆至少要分开回答两个问题:此刻需不需要建议?如果需要,建议具体是什么?

Mem-pi 记忆范式对比

这张图最适合快速理解论文。Workflow-based memory 依赖预设检索和更新流程;learning-based memory 优化记忆操作;Mem-pi 则把可复用经验内化进一个独立生成式策略。这里的关键是“独立”:记忆策略不是下游 agent 本体,因此作者可以单独训练“何时生成、生成什么”,而不必改动基础智能体。风险也在这里:多了一个模型,就多了一个需要监控和审计的行为源。

Mem-pi 训练流程

训练分两段。Experience distillation 让记忆模型从离线经验库学习,把任务上下文映射到可复用 guidance。Adaptation distillation 再用智能体执行结果更新策略,每个上下文构造一个结构化 rollout group:一个 [ABSTAIN] 分支,加上多个 [GENERATE] 分支。图里最重要的是 abstention 被当成一个决策来学,而不是最后加一个阈值。

技术关键是 decision-content decoupling。标准 GRPO 会把很短的决策 token 和较长的生成提示混在同一个 token 目标里,导致内容梯度压过“该不该生成”的决策梯度。Mem-pi 把信号拆开:用 abstain 与 generate 的跨分支价值差训练决策 token;只有当生成真正有帮助时,才给 guidance 内容部分更强的正向信号。论文中的奖励设计也对应这个拆分:生成分支使用带 guidance 的任务奖励加记忆质量奖励,abstain 分支使用不加 guidance 的任务奖励。

gpt-5.4-mini 为基础智能体的主结果如下:

方法WebArena 平均WorkArena 平均ALFWorld 平均LAB 平均总平均
Base agent27.142.085.526.845.3
RAG31.442.685.828.547.4
Mem031.944.187.230.048.4
Memory-R133.244.387.731.249.2
MemRL34.046.187.131.950.0
Mem-pi Stage 135.046.690.034.151.4
Mem-pi43.150.391.636.755.4

最醒目的是 WebArena:基础智能体 27.1,RAG 31.4,Mem-pi 到 43.1。ALFWorld 和 LAB 的绝对增益小一些,因为起点不同,但方向一致。消融也说明两阶段训练不是装饰:去掉 Stage 1,WebArena 从 43.1 掉到 37.9;改成统一单阶段训练掉到 36.3;去掉结构化 rollout 掉到 38.3。

Mem-pi 难度分桶 abstention 图 A

这张图说明 Mem-pi 不是每个任务都硬塞记忆。不同难度分桶里,它的 abstention rate 和相对基础智能体的成功率提升都在变化。我从这里读到的不是某个绝对数值,而是行为模式:有用的记忆应该是选择性的。需要谨慎的是,任务难度分桶来自 benchmark;真实部署中还要有自己的不确定性或难度估计。

Mem-pi 难度分桶 abstention 图 B

这张 companion 图从另一个切片支持同一件事:更多上下文并不天然等于更好。有些任务需要 guidance,有些任务不需要;学到 abstain 才能避免坏建议污染执行。我下一步最想看校准曲线:当 Mem-pi 选择 [ABSTAIN] 时,在分布变化下这个决定有多大概率真的正确?

我的判断:我会优先看这篇的原因是,它把记忆从“存储层”推进成了“策略层”。结构化反事实 rollout 很实用,因为每个上下文都直接比较 abstain 与 generate。局限也明确:生成式记忆可能编造程序性建议,而且论文主要看任务成功率,还没有完整回答长期记忆治理问题。后续需要追问的是:每条生成 guidance 的来源、置信度、作用和退役规则如何记录?

关联主题:agentic training、自适应记忆、workflow agents、选择性上下文注入、data-agent 运行状态。

DeepWeb-Bench: A Deep Research Benchmark Demanding Massive Cross-Source Evidence and Long-Horizon Derivation

作者:Sixiong Xie、Zhuofan Shi、Haiyang Shen、Jiuzheng Wang、Siqi Zhong、Mugeng Liu、Chongyang Pan、Peilun Jia、Baoqing Sun、Xiang Jing、Yun Ma
机构:Peking University
日期:arXiv,2026 年 5 月 20 日
链接:arXivarXiv HTML项目页

一句话核心 idea:DeepWeb-Bench 用 100 个深度研究任务评估 agent,每个任务是一个 8×8 的“实体 × 分析维度”矩阵。每个单元格都有参考答案、来源 provenance 和四档评分,因此能区分模型到底错在检索、推导、推理还是校准。

为什么重要:现在很多 deep research 产品已经会搜网页、会引用、会写很长报告。问题是,长报告经常掩盖真正的错误:模型找到正确年报或行业报告后,分母用错、跨来源冲突没处理,或者在公开数据并不存在时硬给一个精确数字。DeepWeb-Bench 关心的正是这类“检索之后”的推导债。

DeepWeb-Bench 概览

这张图展示了 benchmark 的核心格式。一个任务是 8 行实体和 8 列分析维度,共 64 个独立评分单元格。维度被分到 retrieval、derivation、calibration、reasoning 四类能力里。图里还有 provenance 设计:每个来源记录披露层级和跨来源一致性,这比只给一份最终报告更容易审计。

构造规则是为了减少“靠一个好搜索词碰巧命中答案”的机会。检索型单元格数量受限,非检索单元格通常需要多来源加计算或综合;如果权威来源没有披露,not available 可以是正确答案。评测时,agent 拿到实体列表、维度列表和输出格式,使用同一套 web search、page visit、PDF retrieval 工具。每个任务预算是 200 次工具调用和 30 分钟;空答案得 0。每个单元格按 1、0.5、0.25、0 四档评分,作者还报告了 200 个单元格人工验证与自动 GPT-5.5 grader 的 kappa = 0.82。

100 个任务发布版的主结果:

模型总分检索推导校准推理
Codex CLI + GPT-5.533.3737.8432.5534.1632.38
Claude Opus 4.731.8436.5230.9731.1431.59
DeepSeek V4 Pro28.6832.8927.7329.7727.94
GLM 5.128.1834.1927.0629.5626.70
Claude Sonnet 4.627.9733.8026.8728.8926.80
平均27.1732.8326.1027.7326.19

绝对分不高,这正是它的价值。检索是平均最高的能力族,达到 32.83;推导和推理更低。论文报告共评分 874/900 个模型-任务对、55,936 个单元格,所以失败分析不是靠几个手挑案例撑起来的。

DeepWeb-Bench 分数差异

这张图说明模型排名不是固定的。任务级分数的平均 pairwise Spearman 相关为 0.61,意味着不同模型不是在同一批任务上同步失败。这个性质很重要,因为它让 benchmark 不只是一个总分榜单,而能暴露模型的领域和任务专长。限制也要说清楚:这些仍然是公开网页任务和固定工具 harness,不等同于有权限控制、过期内部文档和版本化数据的企业研究环境。

最值得记住的是人工标注的失败模式表:

失败模式前四模型其他五个模型
幻觉式精确数字22%38%
静默选择来源18%14%
推导不完整31%24%
范围漂移15%12%
检索缺口14%12%

这个表的重点是:retrieval gap 只占 12-14%。更强模型的主要问题是 incomplete derivation,找到中间值后组合错;较弱模型更常见的问题是 hallucinated precision,在没有权威披露时给出自信精确值。两类错误需要不同干预:一个需要更可靠的计算和推导检查,一个需要校准和拒答训练。

DeepWeb-Bench 长度与准确率诊断

这张诊断图比较了案例难度分布和回答长度与准确率关系。论文报告这里存在负相关,Codex CLI + GPT-5.5 的平均答案最短但总分最高。我不会把它读成“短答案更好”;短而错的推导仍然是错的。更稳妥的结论是:很长的研究轨迹可以掩盖计算错误,所以评测必须拆到单元格和推导链,而不能只看报告是否显得详尽。

我的判断:DeepWeb-Bench 很适合 Paper Radar,因为它把研究智能体的隐藏债务量化出来了。我最看重的是单元格级 provenance 和失败 taxonomy,而不是哪个模型第一。风险在于 judge 依赖和构造成本:自动 GPT-5.5 grader 虽有人类验证,但仍需要持续审计;高质量矩阵任务和来源记录也很费人力。下一步我想看的是,未来版本能否开放足够 reference provenance 供外部审计,同时避免答案泄漏进训练集。

关联主题:文档智能、深度研究智能体、证据 provenance、校准、推导型评测、data-agent 审计轨迹。

阅读优先级和下期问题

我的阅读优先级是 Agent JIT、Mem-pi、DeepWeb-Bench。Agent JIT 最接近真实 computer-use 延迟瓶颈;Mem-pi 的训练思想最有意思,因为它让记忆变成选择性策略;DeepWeb-Bench 是评测锚点,提醒我智能体检索完证据之后,仍然要正确计算、协调来源并知道什么时候该拒答。

接下来我会追几个问题:

  • 网页智能体编译器能否在网站变化、隐藏状态漂移时持续维护工具不变量?
  • 生成式记忆系统能否为每条 guidance 暴露置信度、来源和退役规则?
  • 深度研究 benchmark 能否进入私有文档库、版本化来源和权限控制场景,同时保持可审计?
  • 研究智能体训练能否直接针对推导和校准失败,而不是只扩大检索范围?