在漂移变成答案之前加检查

5 minute read

Published: May 03, 2026

TL;DR：这一期我关注的是系统在“看起来已经完成”之前，能不能先发现或修正漂移。5 月 1 日到 3 日目标方向里没有足够新的 arXiv CS 投稿，所以我扩展到 4 月 30 日最新窗口，选了四篇开放全文：PRISM 讨论多模态模型在 RLVR 前的预对齐，PhyCo 讨论视频生成里的物理属性控制，FCMBench-Video 讨论文档证据随时间展开时的评测，Latent Adversarial Detection 讨论多轮攻击意图在激活轨迹中的信号。

本期我在看什么

前几期反复写了 workboard、trace、checkpoint 和可验证状态。这一期我想把问题往前推一点：如果最终答案已经写得很顺、视频已经看起来很像、文档 agent 已经给出判断，再去发现错误就太晚了。更有价值的问题是，漂移刚开始出现时有没有可检查的信号。

PRISM 关心的是训练前置状态：SFT 之后的多模态策略，是否已经偏离了后续 RL 能很好优化的分布。PhyCo 关心生成世界模型的控制面：如果视频模型不知道“摩擦”“反弹”“形变”“外力”这些变量，只靠外观学习很难可靠。FCMBench-Video 把文档理解从静态图片拉回视频流，强调证据什么时候出现、是否可读、是否被后来的视觉指令覆盖。Latent Adversarial Detection 则把多轮安全问题放到激活轨迹里看，而不是只看每一轮文本表面。

这期也按你的反馈处理表格：关键结果表我用 Markdown 重写，不再截图密集表格。图片只保留方法图和真正有助于理解的曲线。

论文细读笔记

PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

作者：Sudong Wang, Weiquan Huang, Xiaomin Yu, Zuhao Yang, Hehai Lin, Keming Wu, Chaojun Xiao, Chen Chen, Wenxuan Wang, Beier Zhu, Yunjian Zhang, Chengwei Qin。
机构：香港科技大学（广州）；清华大学；南洋理工大学；中国人民大学；中国科学技术大学；中国科学院大学。
日期/出处：2026 年 4 月 30 日，arXiv 预印本。
链接：arXiv | HTML | code

PRISM pipeline

这张图把论文的核心位置说清楚了：不要默认 SFT 之后就可以直接进 RLVR。SFT 可能让策略既偏离原模型先验，也没有真正贴近高质量监督分布。PRISM 在 SFT 和 RLVR 之间插入一个分布对齐阶段。需要注意的是，作者并不声称对齐阶段本身直接提高答案正确率，它的目标是让后续 RL 从更合适的策略状态开始。

PRISM alignment stage

这张对齐架构图比单纯结果表更重要。判别器不是一个泛化的打分器，而是分成视觉感知专家和推理专家，用 Bradley-Terry 损失区分监督答案和当前策略 rollout。策略再用这个组合 reward 做 on-policy 更新。多模态任务里，视觉 grounding 错误和推理链错误确实不是同一种漂移，分开给信号是这篇的关键设计。

一句话核心 idea：PRISM 在 SFT 和 RLVR 之间加入黑盒 on-policy distillation，用感知和推理两个专家判别器分别修正多模态策略的分布漂移。

为什么重要：很多多模态 RL 论文把 SFT 当成无害冷启动。但这篇提醒我们，冷启动也可能把模型带到一个尴尬位置：表面上学会了监督数据的推理样式，却没有真正匹配目标分布，后续 RL 也不好救回来。如果这个判断成立，瓶颈就不只是 RL 算法，而是 RL 开始前策略到底处在什么状态。

方法拆解：

先用约 137 万样本做 SFT，其中包括 10.7 万个作者用 Gemini 3 Flash 构造并过滤的多模态推理样本，以及 126 万公开示范样本。
对齐阶段采样当前策略的输出，再和高质量监督回答比较。判别器有两个专家：一个看视觉描述是否 grounded，一个看推理轨迹是否一致。
判别器 reward 写成 (r(x,y)=\alpha D_v(x,c)+(1-\alpha)D_r(x,t))，其中 (c) 是视觉描述，(t) 是推理轨迹。
策略用组内归一化 advantage 更新，得到预对齐 checkpoint，最后再进入 GRPO、DAPO 或 GSPO 这样的 RLVR 阶段。

论文主结果的压缩版。

底座模型	普通 SFT 到 GRPO 平均分	PRISM 到 GRPO 平均分	提升
Qwen3-VL-4B	61.8	66.2	+4.4
Qwen3-VL-8B	63.3	69.3	+6.0

这个表支撑的是“训练顺序”而不是单纯 leaderboard。PRISM 不是替代 RLVR，而是让 GRPO 从更接近监督分布的策略出发。8B 模型更有意思：普通 SFT 对 Instruct checkpoint 的伤害更明显，标准 RL 没能完全恢复，而 PRISM 加 GRPO 超过了原 Instruct 基线。

关键消融的压缩版。

Qwen3-VL-4B + GRPO 设置	平均分
PRISM 完整流程	66.2
单个 dense 4B 判别器	62.8
纯文本判别器	62.3
去掉对齐阶段	61.8
去掉 SFT	49.4

这张表让我更相信作者的方法叙事。dense 判别器把感知和推理压成一个标量，信号会混在一起；纯文本判别器能学到推理模板和格式，却不能核验视觉描述是否真的对应图像。去掉 SFT 后，对抗对齐一开始差距太大，判别器很容易饱和；去掉对齐阶段，则退回普通 SFT 到 RLVR。

PRISM token efficiency

token efficiency 图补了一个部署角度。Qwen3-VL-4B 上，PRISM+GRPO 在 MathVision、MathVerse 和 MMMU-Pro 上用更少 token 得到更高准确率。这个证据我会谨慎读，因为 token 长度不等于推理质量，但它说明 PRISM 的收益不是单纯把答案写得更长。

我的判断：我会把 PRISM 当成“初始化质量”论文，而不是又一篇 RL 算法论文。它最有价值的地方是指出 SFT 可能留下一个不适合后续 RL 的策略分布。弱点也清楚：它依赖高质量监督数据和仔细训练的判别器。下一步我更想看这种预对齐能否迁移到工具 agent，把“感知专家”换成环境状态或工具状态专家。

对应主题：agentic training、多模态 RL、分布对齐、训练前检查。

PhyCo: Learning Controllable Physical Priors for Generative Motion

作者：Sriram Narayanan, Ziyu Jiang, Srinivasa G. Narasimhan, Manmohan Chandraker。
机构：Carnegie Mellon University；NEC Labs America；UC San Diego。
日期/出处：2026 年 4 月 30 日，arXiv 预印本；CVPR 2026。
链接：arXiv | HTML | project

PhyCo training pipeline

PhyCo 的流程图说明这不是“再喂一点视频数据”。第一阶段用物理属性 map 条件化 ControlNet 分支，微调视频扩散模型；第二阶段用 VLM 做 physics-aware reward，对生成视频提出有针对性的物理问题。这个设计有价值，也有风险：VLM 评价器本身成为训练信号，所以它是否真的懂这些物理现象也必须被验证。

PhyCo simulation data

这张模拟数据图展示了数据设计的克制。作者不是追求任意复杂场景，而是让摩擦、反弹、形变、外力等变量在视觉运动中尽量清楚地显现。这个窄范围不是缺点的一部分，而是训练策略的一部分：如果场景复杂到基础扩散模型自己都难以表示，物理监督反而会变成噪声。

一句话核心 idea：PhyCo 让视频扩散模型接收空间对齐的物理属性图，再用 VLM 的物理问题反馈，提升生成运动的可控性和物理一致性。

为什么重要：视频生成模型经常“看起来像”，但动力学不对。物体滑动时不理会摩擦，碰撞后反弹不符合 restitution，软体形变像硬物。对世界模型来说，这不是审美瑕疵，而是能不能用于规划、机器人和模拟设计的根本问题。如果模型不能暴露和控制物理变量，就很难被当成可靠环境模型。

方法拆解：

作者构造了超过 10 万个 physics-rich 模拟视频，选择物理属性容易从运动中读出的交互场景。
物理属性被编码成空间 map：摩擦和反弹一组，Neo-Hookean 形变参数一组，外力大小和方向一组。
以 Cosmos-Predict2-2B 为视频扩散底座，冻结大部分基础权重，只训练 ControlNet 风格的属性条件分支。
额外微调一个 Qwen2.5-VL-3B 评价器，让它回答物理问题，再把 VLM logit 反馈变成可微 reward，继续优化生成器。

Physics-IQ 结果压缩版。

模型	120 帧设置 IQ 分	训练帧长设置 IQ 分
Cosmos-Predict2-2B	27.7	未报告
VLIPP	34.6	未报告
PhyCo text-only	30.9	36.5
PhyCo ControlNet	35.3	38.9
PhyCo ControlNet + VLM loss	36.3	43.6

这个表支持“显式物理条件有用”，但也要看它的边界。Physics-IQ 用 120 帧 24FPS，模型训练是 57 帧，作者同时报告了两种生成条件。方向是一致的：ControlNet 条件带来收益，VLM loss 进一步增强最强版本，尤其是在接近训练帧长的设置下。

PhyCo controllable examples

这张图应该保留，因为任务本来就是视觉运动。图里展示了摩擦、反弹、形变、外力等属性输入如何影响代表性帧，白色区域标出空间属性输入位置。需要谨慎的是，定性帧很容易挑选得好看，所以它必须和上面的 Physics-IQ、用户研究和力方向指标一起看。

用户研究和消融证据。

证据	论文报告
2AFC 用户研究	用户在 friction 95.5%、restitution 100.0%、deformation 82.2%、force 91.1% 的比较中更偏好 PhyCo 而不是 CogVideoX。
25 个真实视频的外力方向	PhyCo 平均角度误差 15.2 度，Force-Prompting 为 40.5 度。
合成属性消融	ControlNet + VLM 的力方向误差为 22.53 度，不加 VLM 为 38.05 度。

这些数字让论文不只是 demo。用户研究看的是人对物理合理性的感受，外力方向误差看的是指定控制变量能否改变生成运动。真实视频只有 25 个，所以我会把它当成有用信号，而不是部署保证。

我的判断：PhyCo 最值得看的地方是把物理变量变成视频世界模型的控制面。它没有声称解决完整物理模拟，而是说，预训练视频模型如果能接收显式物理属性，并接受有针对性的物理 reward，会更可靠。下一步我会追它能不能走出干净物体交互，进入有遮挡、多物体、工具、手部和更复杂接触的场景。

对应主题：world models、物理先验、可控视频生成、reward-guided alignment。

FCMBench-Video: Benchmarking Document Video Intelligence

作者：Runze Cui, Fangxin Shang, Yehui Yang, Qing Yang, Yanwu Xu, Tao Chen。
机构：奇富科技 AI Lab；复旦大学；华南理工大学；琶洲实验室。
日期/出处：2026 年 4 月 28 日，2026 年 4 月 30 日更新，arXiv 预印本。
链接：arXiv | HTML | code/data

FCMBench-Video ADC workflow

ADC workflow 是这篇的核心。作者没有直接发布含隐私的真实信贷视频，而是先录制可复用的单文档 handheld clips，再加可控的光照、模糊、压缩等退化，最后组合成长视频。这个设计试图保留真实采集动态，同时让数据可发布、可复现。需要注意的是，组合视频仍然是 benchmark 构造，不等于线上开户或风控视频的完整替代。

一句话核心 idea：FCMBench-Video 把文档智能从静态页面评测推进到时间轴上，要求模型在视频流里读文档、数文档、定位证据、跨文档验证，并抵抗最后出现的视觉提示注入。

为什么重要：很多 document agent 会把证据压成一张图或一段 OCR 文本。但真实远程核验里，证据是随时间出现的：文档进入镜头、短暂清晰、移走、重复出现，后面还可能跟着恶意视觉指令。真正有用的文档 agent 需要维护文档清单、时间定位、缺失证据时 abstain，以及记录为什么相信某段证据。

方法拆解：

Atomic acquisition 阶段用手机录制单文档片段，保留进入、离开和最清晰的 golden window。
Degradation injection 阶段加入反光、阴影、模糊、降采样和编码压缩；可读性标签由三名标注者验证。
Composition 阶段把片段组合成 20 秒、40 秒、60 秒多文档视频，并生成确定性的时间标注和文档唯一性约束。
任务覆盖 classification、counting、temporal grounding、visual prompt injection、cross-document validation 和 evidence-grounded selection。

发布数据规模压缩版。

统计项	中文子集	英文子集
唯一身份	15	30
唯一原子文档	251	244
组合视频	405	795
benchmark 指令	5,960	5,362
每个组合视频平均指令数	14.72	6.74
任务类别	7	6

这张表说明它不是一个更大的 DocVQA。基本单元是带身份结构和时间标注的组合视频。表里也能看到两个子集不对称：英文子集组合视频更多，中文子集任务类别更多，并包含 cross-document validation。

FCMBench-Video overall performance

整体性能图用来判断 benchmark 是否已经饱和。论文报告整体分布均值 46.73、标准差 18.42，模型没有挤在满分或零分附近，而是在中间拉开差距。随发布时间前沿模型分数上升，说明 benchmark 能跟踪能力进展；同一时期模型差距仍然很大，说明它不是只测噪声。

代表性任务结果。

模型和子集	分类	计数	时间定位	视觉提示注入 ASR	证据选择
Gemini-3.0-Pro，中文	75.15	67.09	79.14	12.24	73.04
Qwen3.5-27B，中文	73.06	39.33	69.43	18.89	67.32
Gemini-3.0-Pro，英文	90.98	67.92	80.39	0.38	76.99
Qwen3.5-27B，英文	91.53	59.77	75.74	2.08	86.85

这里视觉提示注入 ASR 越低越好。表里能看到单一总分不够：Gemini 在定位和 ASR 上很强，Qwen3.5-27B 在英文 evidence-grounded selection 上更强。计数普遍比分类难，这和论文观点一致：维持去重文档清单比识别文档类型更难。

FCMBench-Video duration perception

duration 曲线是我会给做文档 agent 的人看的图。视频从 20 秒变到 60 秒，计数下降最明显，分类相对稳定。这说明长上下文不是均匀增加难度，而是专门打击状态维护：漏掉文档、重复计数、把答案绑定到错误时间段，都会在长视频里放大。

输出有效性压缩版。

模型	格式有效	空输出
Kimi-VL-A3B-Instruct	9.52	90.48
InternVL3-8B	93.76	6.24
Gemini-3.0-Pro-Preview	97.05	2.95
Qwen3.5-27B	100.00	0.00

这个表把 parser 问题和语义问题分开了。除了 Kimi-VL-A3B-Instruct，大多数模型多数时候能输出可解析格式。剩下的主要错误不是格式，而是没有正确读取、保持、比较或拒绝视频里的证据。

我的判断：FCMBench-Video 的价值在于把文档智能往真实工作流形状推进了一步。我尤其喜欢它把 visual prompt injection 放进视频末尾，但也不会把这个任务过度解读为干净的安全指标，因为作者自己说明它把 recency bias 和恶意指令服从混在一起。主要局限是评测协议不完全同构：商业模型用原生 raw-video API，开源模型则有不同采样和 serving 路径。即使如此，它仍然值得追，因为它测的是文档 agent 真正需要的证据账本。

对应主题：文档智能、多模态 agent、时间证据定位、可审计证据流。

Latent Adversarial Detection: Adaptive Probing of LLM Activations for Multi-Turn Attack Detection

作者：Prashant Kulkarni。
机构：未注明；论文列出地点为 Mountain View, CA。
日期/出处：2026 年 4 月 30 日，arXiv 预印本。
链接：arXiv | HTML

LAD pipeline

这张 pipeline 图把 LAD 的对象讲清楚了。系统从目标 LLM 抽取激活，经由 contrastive MLP 投到 128 维空间，再拼接五个轨迹标量，用 XGBoost 做逐轮分类。论文没有声称得到通用检测器，而是提出一种模型专属 probe：看对话在激活空间里怎么移动。

一句话核心 idea：多轮攻击每一轮文本都可能看起来无害，但对话从建立信任、试探、转向到升级的过程，会在 residual stream 激活轨迹中留下“adversarial restlessness”。

为什么重要：文本过滤器最怕的是攻击者避开明显危险词。对 agent 更难的是长对话逐渐改变模型愿意考虑的事情，而不是一条明确恶意 prompt。如果内部状态在最终危险请求出现前已经移动，激活 probe 就可能比输入分类器更早报警。

方法拆解：

每个用户 turn 抽取一个 residual-stream 激活向量 (v_t)，位置是中后层 decoder。
计算五个轨迹标量：drift magnitude、和上一轮的 cosine shift、cumulative drift、drift acceleration、mean drift。
主特征写作 (x_t=[v_t;|\Delta_t|,\cos(v_t,v_{t-1}),C_t,a_t,\bar d_t])。contrastive 版本先把原激活映射到 128 维，再拼同样五个标量。
任一 turn 超过固定阈值就标记整段对话。lead time 写成 (\tau_{\text{lead}}=t^*{\text{adv}}-t{\text{detect}})，正数表示在第一个 adversarial turn 之前就触发。

检测证据压缩版。

设置	论文报告
合成 held-out，Gemma 3 27B	只用激活为 76.2%；加入轨迹标量后达到 93.8%，false positive 为 3.5%。
更长 pivoting 数据	early detection 为 66-83%，原短 pivot 设置为 22-26%。
跨模型合成复现	每个模型单独训练 probe，检测率 89-96%，false positive 为 0.5-2.0%。
三源混合 held-out	最好一行是 Qwen 2.5 32B，检测率 89.4%，false positive 2.4%。

这组证据应该被读成“轨迹信号”，而不是神奇激活指纹。只用五个标量也能检测很多攻击，但 false positive 风险很大；加入激活后 precision 才回来。更长 pivoting 阶段更容易提前检测也符合直觉：攻击者绕得越久，轨迹 probe 看到的移动越多。

LAD cross-model replication

跨模型图显示，Gemma、Mistral、Qwen、Llama 家族上都能复现这个现象，但前提是每个模型训练自己的 probe。这既是好消息也是坏消息。好消息是 adversarial restlessness 不像某个模型偶然特征；坏消息是 probe 不能干净跨架构迁移，部署时要按目标模型训练和维护。

LAD combined held-out

这张图从合成评测转到混合 held-out。最好结果是 Qwen 2.5 32B 的 89.4% 检测率和 2.4% false positive。论文也明确指出数据要求：只用合成数据训练的 probe 在真实 LMSYS-Chat-1M 上会出现极端 false positive。混合训练不是小细节，而是方法能不能部署的前提。

泛化和 baseline 检查。

检查	结果
PromptGuard 零样本	对话检测率 19.8%，对话 false positive 16.1%
LLM Guard 零样本	检测率 29.0%，false positive 27.9%
Lakera Guard 零样本	检测率 95.2%，false positive 76.3%
LAD 模型专属 probe	检测率 85.3-89.4%，false positive 2.4-4.0%
训练时去掉 LMSYS	LMSYS 评测 false positive 100%
训练时去掉 SafeDial	SafeDial 评测检测率 0%

这张表是避免过度宣传的关键。LAD 在论文设置里比这些现成工具有更好的 precision-recall 折中，但前提是使用部署分布训练。leave-one-source-out 结果很直白：它不是 source-agnostic 检测器，需要有代表性的 benign 和 attack 分布。

我的判断：这篇入选，是因为它有公式、有机制线索，也有很硬的负面条件。沿着对话看 activation path length，对 agent safety 是有意义的，尤其是长期会话或工具 agent 被逐步引导的场景。但它限制很重：需要激活访问、需要按模型训练、需要分布内数据。我会把 LAD 看成有潜力的运行时传感器，而不是独立防线。

对应主题：大模型机理、多轮 agent safety、激活 probe、运行时监控。

阅读优先级和下期问题

如果关心多模态 agent 训练，我会先读 PRISM；如果关心真实文档工作流，我会先读 FCMBench-Video；如果关心运行时安全传感器，我会先读 LAD；如果关心视频 world model，我会先读 PhyCo。

下期我想继续追的问题：

PRISM 这种预对齐能不能从感知/推理专家，迁移到工具状态/环境状态专家？
物理属性 map 能不能从干净物体交互扩展到有工具、手部、遮挡和多物体接触的场景？
文档视频 agent 能不能输出持久证据账本：读到了什么、什么时候可见、为什么可信？
激活轨迹 probe 能不能拿到足够代表性的 benign 数据，避免变成另一种脆弱分类器？