在漂移变成答案之前加检查

5 minute read

Published:

TL;DR:这一期我关注的是系统在“看起来已经完成”之前,能不能先发现或修正漂移。5 月 1 日到 3 日目标方向里没有足够新的 arXiv CS 投稿,所以我扩展到 4 月 30 日最新窗口,选了四篇开放全文:PRISM 讨论多模态模型在 RLVR 前的预对齐,PhyCo 讨论视频生成里的物理属性控制,FCMBench-Video 讨论文档证据随时间展开时的评测,Latent Adversarial Detection 讨论多轮攻击意图在激活轨迹中的信号。

本期我在看什么

前几期反复写了 workboard、trace、checkpoint 和可验证状态。这一期我想把问题往前推一点:如果最终答案已经写得很顺、视频已经看起来很像、文档 agent 已经给出判断,再去发现错误就太晚了。更有价值的问题是,漂移刚开始出现时有没有可检查的信号。

PRISM 关心的是训练前置状态:SFT 之后的多模态策略,是否已经偏离了后续 RL 能很好优化的分布。PhyCo 关心生成世界模型的控制面:如果视频模型不知道“摩擦”“反弹”“形变”“外力”这些变量,只靠外观学习很难可靠。FCMBench-Video 把文档理解从静态图片拉回视频流,强调证据什么时候出现、是否可读、是否被后来的视觉指令覆盖。Latent Adversarial Detection 则把多轮安全问题放到激活轨迹里看,而不是只看每一轮文本表面。

这期也按你的反馈处理表格:关键结果表我用 Markdown 重写,不再截图密集表格。图片只保留方法图和真正有助于理解的曲线。

论文细读笔记

PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

作者:Sudong Wang, Weiquan Huang, Xiaomin Yu, Zuhao Yang, Hehai Lin, Keming Wu, Chaojun Xiao, Chen Chen, Wenxuan Wang, Beier Zhu, Yunjian Zhang, Chengwei Qin。
机构:香港科技大学(广州);清华大学;南洋理工大学;中国人民大学;中国科学技术大学;中国科学院大学。
日期/出处:2026 年 4 月 30 日,arXiv 预印本。
链接:arXiv | HTML | code

PRISM pipeline

这张图把论文的核心位置说清楚了:不要默认 SFT 之后就可以直接进 RLVR。SFT 可能让策略既偏离原模型先验,也没有真正贴近高质量监督分布。PRISM 在 SFT 和 RLVR 之间插入一个分布对齐阶段。需要注意的是,作者并不声称对齐阶段本身直接提高答案正确率,它的目标是让后续 RL 从更合适的策略状态开始。

PRISM alignment stage

这张对齐架构图比单纯结果表更重要。判别器不是一个泛化的打分器,而是分成视觉感知专家和推理专家,用 Bradley-Terry 损失区分监督答案和当前策略 rollout。策略再用这个组合 reward 做 on-policy 更新。多模态任务里,视觉 grounding 错误和推理链错误确实不是同一种漂移,分开给信号是这篇的关键设计。

一句话核心 idea:PRISM 在 SFT 和 RLVR 之间加入黑盒 on-policy distillation,用感知和推理两个专家判别器分别修正多模态策略的分布漂移。

为什么重要:很多多模态 RL 论文把 SFT 当成无害冷启动。但这篇提醒我们,冷启动也可能把模型带到一个尴尬位置:表面上学会了监督数据的推理样式,却没有真正匹配目标分布,后续 RL 也不好救回来。如果这个判断成立,瓶颈就不只是 RL 算法,而是 RL 开始前策略到底处在什么状态。

方法拆解:

  1. 先用约 137 万样本做 SFT,其中包括 10.7 万个作者用 Gemini 3 Flash 构造并过滤的多模态推理样本,以及 126 万公开示范样本。
  2. 对齐阶段采样当前策略的输出,再和高质量监督回答比较。判别器有两个专家:一个看视觉描述是否 grounded,一个看推理轨迹是否一致。
  3. 判别器 reward 写成 (r(x,y)=\alpha D_v(x,c)+(1-\alpha)D_r(x,t)),其中 (c) 是视觉描述,(t) 是推理轨迹。
  4. 策略用组内归一化 advantage 更新,得到预对齐 checkpoint,最后再进入 GRPO、DAPO 或 GSPO 这样的 RLVR 阶段。

论文主结果的压缩版。

底座模型普通 SFT 到 GRPO 平均分PRISM 到 GRPO 平均分提升
Qwen3-VL-4B61.866.2+4.4
Qwen3-VL-8B63.369.3+6.0

这个表支撑的是“训练顺序”而不是单纯 leaderboard。PRISM 不是替代 RLVR,而是让 GRPO 从更接近监督分布的策略出发。8B 模型更有意思:普通 SFT 对 Instruct checkpoint 的伤害更明显,标准 RL 没能完全恢复,而 PRISM 加 GRPO 超过了原 Instruct 基线。

关键消融的压缩版。

Qwen3-VL-4B + GRPO 设置平均分
PRISM 完整流程66.2
单个 dense 4B 判别器62.8
纯文本判别器62.3
去掉对齐阶段61.8
去掉 SFT49.4

这张表让我更相信作者的方法叙事。dense 判别器把感知和推理压成一个标量,信号会混在一起;纯文本判别器能学到推理模板和格式,却不能核验视觉描述是否真的对应图像。去掉 SFT 后,对抗对齐一开始差距太大,判别器很容易饱和;去掉对齐阶段,则退回普通 SFT 到 RLVR。

PRISM token efficiency

token efficiency 图补了一个部署角度。Qwen3-VL-4B 上,PRISM+GRPO 在 MathVision、MathVerse 和 MMMU-Pro 上用更少 token 得到更高准确率。这个证据我会谨慎读,因为 token 长度不等于推理质量,但它说明 PRISM 的收益不是单纯把答案写得更长。

我的判断:我会把 PRISM 当成“初始化质量”论文,而不是又一篇 RL 算法论文。它最有价值的地方是指出 SFT 可能留下一个不适合后续 RL 的策略分布。弱点也清楚:它依赖高质量监督数据和仔细训练的判别器。下一步我更想看这种预对齐能否迁移到工具 agent,把“感知专家”换成环境状态或工具状态专家。

对应主题:agentic training、多模态 RL、分布对齐、训练前检查。

PhyCo: Learning Controllable Physical Priors for Generative Motion

作者:Sriram Narayanan, Ziyu Jiang, Srinivasa G. Narasimhan, Manmohan Chandraker。
机构:Carnegie Mellon University;NEC Labs America;UC San Diego。
日期/出处:2026 年 4 月 30 日,arXiv 预印本;CVPR 2026。
链接:arXiv | HTML | project

PhyCo training pipeline

PhyCo 的流程图说明这不是“再喂一点视频数据”。第一阶段用物理属性 map 条件化 ControlNet 分支,微调视频扩散模型;第二阶段用 VLM 做 physics-aware reward,对生成视频提出有针对性的物理问题。这个设计有价值,也有风险:VLM 评价器本身成为训练信号,所以它是否真的懂这些物理现象也必须被验证。

PhyCo simulation data

这张模拟数据图展示了数据设计的克制。作者不是追求任意复杂场景,而是让摩擦、反弹、形变、外力等变量在视觉运动中尽量清楚地显现。这个窄范围不是缺点的一部分,而是训练策略的一部分:如果场景复杂到基础扩散模型自己都难以表示,物理监督反而会变成噪声。

一句话核心 idea:PhyCo 让视频扩散模型接收空间对齐的物理属性图,再用 VLM 的物理问题反馈,提升生成运动的可控性和物理一致性。

为什么重要:视频生成模型经常“看起来像”,但动力学不对。物体滑动时不理会摩擦,碰撞后反弹不符合 restitution,软体形变像硬物。对世界模型来说,这不是审美瑕疵,而是能不能用于规划、机器人和模拟设计的根本问题。如果模型不能暴露和控制物理变量,就很难被当成可靠环境模型。

方法拆解:

  1. 作者构造了超过 10 万个 physics-rich 模拟视频,选择物理属性容易从运动中读出的交互场景。
  2. 物理属性被编码成空间 map:摩擦和反弹一组,Neo-Hookean 形变参数一组,外力大小和方向一组。
  3. 以 Cosmos-Predict2-2B 为视频扩散底座,冻结大部分基础权重,只训练 ControlNet 风格的属性条件分支。
  4. 额外微调一个 Qwen2.5-VL-3B 评价器,让它回答物理问题,再把 VLM logit 反馈变成可微 reward,继续优化生成器。

Physics-IQ 结果压缩版。

模型120 帧设置 IQ 分训练帧长设置 IQ 分
Cosmos-Predict2-2B27.7未报告
VLIPP34.6未报告
PhyCo text-only30.936.5
PhyCo ControlNet35.338.9
PhyCo ControlNet + VLM loss36.343.6

这个表支持“显式物理条件有用”,但也要看它的边界。Physics-IQ 用 120 帧 24FPS,模型训练是 57 帧,作者同时报告了两种生成条件。方向是一致的:ControlNet 条件带来收益,VLM loss 进一步增强最强版本,尤其是在接近训练帧长的设置下。

PhyCo controllable examples

这张图应该保留,因为任务本来就是视觉运动。图里展示了摩擦、反弹、形变、外力等属性输入如何影响代表性帧,白色区域标出空间属性输入位置。需要谨慎的是,定性帧很容易挑选得好看,所以它必须和上面的 Physics-IQ、用户研究和力方向指标一起看。

用户研究和消融证据。

证据论文报告
2AFC 用户研究用户在 friction 95.5%、restitution 100.0%、deformation 82.2%、force 91.1% 的比较中更偏好 PhyCo 而不是 CogVideoX。
25 个真实视频的外力方向PhyCo 平均角度误差 15.2 度,Force-Prompting 为 40.5 度。
合成属性消融ControlNet + VLM 的力方向误差为 22.53 度,不加 VLM 为 38.05 度。

这些数字让论文不只是 demo。用户研究看的是人对物理合理性的感受,外力方向误差看的是指定控制变量能否改变生成运动。真实视频只有 25 个,所以我会把它当成有用信号,而不是部署保证。

我的判断:PhyCo 最值得看的地方是把物理变量变成视频世界模型的控制面。它没有声称解决完整物理模拟,而是说,预训练视频模型如果能接收显式物理属性,并接受有针对性的物理 reward,会更可靠。下一步我会追它能不能走出干净物体交互,进入有遮挡、多物体、工具、手部和更复杂接触的场景。

对应主题:world models、物理先验、可控视频生成、reward-guided alignment。

FCMBench-Video: Benchmarking Document Video Intelligence

作者:Runze Cui, Fangxin Shang, Yehui Yang, Qing Yang, Yanwu Xu, Tao Chen。
机构:奇富科技 AI Lab;复旦大学;华南理工大学;琶洲实验室。
日期/出处:2026 年 4 月 28 日,2026 年 4 月 30 日更新,arXiv 预印本。
链接:arXiv | HTML | code/data

FCMBench-Video ADC workflow

ADC workflow 是这篇的核心。作者没有直接发布含隐私的真实信贷视频,而是先录制可复用的单文档 handheld clips,再加可控的光照、模糊、压缩等退化,最后组合成长视频。这个设计试图保留真实采集动态,同时让数据可发布、可复现。需要注意的是,组合视频仍然是 benchmark 构造,不等于线上开户或风控视频的完整替代。

一句话核心 idea:FCMBench-Video 把文档智能从静态页面评测推进到时间轴上,要求模型在视频流里读文档、数文档、定位证据、跨文档验证,并抵抗最后出现的视觉提示注入。

为什么重要:很多 document agent 会把证据压成一张图或一段 OCR 文本。但真实远程核验里,证据是随时间出现的:文档进入镜头、短暂清晰、移走、重复出现,后面还可能跟着恶意视觉指令。真正有用的文档 agent 需要维护文档清单、时间定位、缺失证据时 abstain,以及记录为什么相信某段证据。

方法拆解:

  1. Atomic acquisition 阶段用手机录制单文档片段,保留进入、离开和最清晰的 golden window。
  2. Degradation injection 阶段加入反光、阴影、模糊、降采样和编码压缩;可读性标签由三名标注者验证。
  3. Composition 阶段把片段组合成 20 秒、40 秒、60 秒多文档视频,并生成确定性的时间标注和文档唯一性约束。
  4. 任务覆盖 classification、counting、temporal grounding、visual prompt injection、cross-document validation 和 evidence-grounded selection。

发布数据规模压缩版。

统计项中文子集英文子集
唯一身份1530
唯一原子文档251244
组合视频405795
benchmark 指令5,9605,362
每个组合视频平均指令数14.726.74
任务类别76

这张表说明它不是一个更大的 DocVQA。基本单元是带身份结构和时间标注的组合视频。表里也能看到两个子集不对称:英文子集组合视频更多,中文子集任务类别更多,并包含 cross-document validation。

FCMBench-Video overall performance

整体性能图用来判断 benchmark 是否已经饱和。论文报告整体分布均值 46.73、标准差 18.42,模型没有挤在满分或零分附近,而是在中间拉开差距。随发布时间前沿模型分数上升,说明 benchmark 能跟踪能力进展;同一时期模型差距仍然很大,说明它不是只测噪声。

代表性任务结果。

模型和子集分类计数时间定位视觉提示注入 ASR证据选择
Gemini-3.0-Pro,中文75.1567.0979.1412.2473.04
Qwen3.5-27B,中文73.0639.3369.4318.8967.32
Gemini-3.0-Pro,英文90.9867.9280.390.3876.99
Qwen3.5-27B,英文91.5359.7775.742.0886.85

这里视觉提示注入 ASR 越低越好。表里能看到单一总分不够:Gemini 在定位和 ASR 上很强,Qwen3.5-27B 在英文 evidence-grounded selection 上更强。计数普遍比分类难,这和论文观点一致:维持去重文档清单比识别文档类型更难。

FCMBench-Video duration perception

duration 曲线是我会给做文档 agent 的人看的图。视频从 20 秒变到 60 秒,计数下降最明显,分类相对稳定。这说明长上下文不是均匀增加难度,而是专门打击状态维护:漏掉文档、重复计数、把答案绑定到错误时间段,都会在长视频里放大。

输出有效性压缩版。

模型格式有效空输出格式错误
Kimi-VL-A3B-Instruct9.5290.480.00
InternVL3-8B93.766.240.00
Gemini-3.0-Pro-Preview97.052.950.00
Qwen3.5-27B100.000.000.00

这个表把 parser 问题和语义问题分开了。除了 Kimi-VL-A3B-Instruct,大多数模型多数时候能输出可解析格式。剩下的主要错误不是格式,而是没有正确读取、保持、比较或拒绝视频里的证据。

我的判断:FCMBench-Video 的价值在于把文档智能往真实工作流形状推进了一步。我尤其喜欢它把 visual prompt injection 放进视频末尾,但也不会把这个任务过度解读为干净的安全指标,因为作者自己说明它把 recency bias 和恶意指令服从混在一起。主要局限是评测协议不完全同构:商业模型用原生 raw-video API,开源模型则有不同采样和 serving 路径。即使如此,它仍然值得追,因为它测的是文档 agent 真正需要的证据账本。

对应主题:文档智能、多模态 agent、时间证据定位、可审计证据流。

Latent Adversarial Detection: Adaptive Probing of LLM Activations for Multi-Turn Attack Detection

作者:Prashant Kulkarni。
机构:未注明;论文列出地点为 Mountain View, CA。
日期/出处:2026 年 4 月 30 日,arXiv 预印本。
链接:arXiv | HTML

LAD pipeline

这张 pipeline 图把 LAD 的对象讲清楚了。系统从目标 LLM 抽取激活,经由 contrastive MLP 投到 128 维空间,再拼接五个轨迹标量,用 XGBoost 做逐轮分类。论文没有声称得到通用检测器,而是提出一种模型专属 probe:看对话在激活空间里怎么移动。

一句话核心 idea:多轮攻击每一轮文本都可能看起来无害,但对话从建立信任、试探、转向到升级的过程,会在 residual stream 激活轨迹中留下“adversarial restlessness”。

为什么重要:文本过滤器最怕的是攻击者避开明显危险词。对 agent 更难的是长对话逐渐改变模型愿意考虑的事情,而不是一条明确恶意 prompt。如果内部状态在最终危险请求出现前已经移动,激活 probe 就可能比输入分类器更早报警。

方法拆解:

  1. 每个用户 turn 抽取一个 residual-stream 激活向量 (v_t),位置是中后层 decoder。
  2. 计算五个轨迹标量:drift magnitude、和上一轮的 cosine shift、cumulative drift、drift acceleration、mean drift。
  3. 主特征写作 (x_t=[v_t;|\Delta_t|,\cos(v_t,v_{t-1}),C_t,a_t,\bar d_t])。contrastive 版本先把原激活映射到 128 维,再拼同样五个标量。
  4. 任一 turn 超过固定阈值就标记整段对话。lead time 写成 (\tau_{\text{lead}}=t^*{\text{adv}}-t{\text{detect}}),正数表示在第一个 adversarial turn 之前就触发。

检测证据压缩版。

设置论文报告
合成 held-out,Gemma 3 27B只用激活为 76.2%;加入轨迹标量后达到 93.8%,false positive 为 3.5%。
更长 pivoting 数据early detection 为 66-83%,原短 pivot 设置为 22-26%。
跨模型合成复现每个模型单独训练 probe,检测率 89-96%,false positive 为 0.5-2.0%。
三源混合 held-out最好一行是 Qwen 2.5 32B,检测率 89.4%,false positive 2.4%。

这组证据应该被读成“轨迹信号”,而不是神奇激活指纹。只用五个标量也能检测很多攻击,但 false positive 风险很大;加入激活后 precision 才回来。更长 pivoting 阶段更容易提前检测也符合直觉:攻击者绕得越久,轨迹 probe 看到的移动越多。

LAD cross-model replication

跨模型图显示,Gemma、Mistral、Qwen、Llama 家族上都能复现这个现象,但前提是每个模型训练自己的 probe。这既是好消息也是坏消息。好消息是 adversarial restlessness 不像某个模型偶然特征;坏消息是 probe 不能干净跨架构迁移,部署时要按目标模型训练和维护。

LAD combined held-out

这张图从合成评测转到混合 held-out。最好结果是 Qwen 2.5 32B 的 89.4% 检测率和 2.4% false positive。论文也明确指出数据要求:只用合成数据训练的 probe 在真实 LMSYS-Chat-1M 上会出现极端 false positive。混合训练不是小细节,而是方法能不能部署的前提。

泛化和 baseline 检查。

检查结果
PromptGuard 零样本对话检测率 19.8%,对话 false positive 16.1%
LLM Guard 零样本检测率 29.0%,false positive 27.9%
Lakera Guard 零样本检测率 95.2%,false positive 76.3%
LAD 模型专属 probe检测率 85.3-89.4%,false positive 2.4-4.0%
训练时去掉 LMSYSLMSYS 评测 false positive 100%
训练时去掉 SafeDialSafeDial 评测检测率 0%

这张表是避免过度宣传的关键。LAD 在论文设置里比这些现成工具有更好的 precision-recall 折中,但前提是使用部署分布训练。leave-one-source-out 结果很直白:它不是 source-agnostic 检测器,需要有代表性的 benign 和 attack 分布。

我的判断:这篇入选,是因为它有公式、有机制线索,也有很硬的负面条件。沿着对话看 activation path length,对 agent safety 是有意义的,尤其是长期会话或工具 agent 被逐步引导的场景。但它限制很重:需要激活访问、需要按模型训练、需要分布内数据。我会把 LAD 看成有潜力的运行时传感器,而不是独立防线。

对应主题:大模型机理、多轮 agent safety、激活 probe、运行时监控。

阅读优先级和下期问题

如果关心多模态 agent 训练,我会先读 PRISM;如果关心真实文档工作流,我会先读 FCMBench-Video;如果关心运行时安全传感器,我会先读 LAD;如果关心视频 world model,我会先读 PhyCo。

下期我想继续追的问题:

  1. PRISM 这种预对齐能不能从感知/推理专家,迁移到工具状态/环境状态专家?
  2. 物理属性 map 能不能从干净物体交互扩展到有工具、手部、遮挡和多物体接触的场景?
  3. 文档视频 agent 能不能输出持久证据账本:读到了什么、什么时候可见、为什么可信?
  4. 激活轨迹 probe 能不能拿到足够代表性的 benign 数据,避免变成另一种脆弱分类器?