在漂移变成答案之前加检查
Published:
TL;DR:这一期我关注的是系统在“看起来已经完成”之前,能不能先发现或修正漂移。5 月 1 日到 3 日目标方向里没有足够新的 arXiv CS 投稿,所以我扩展到 4 月 30 日最新窗口,选了四篇开放全文:PRISM 讨论多模态模型在 RLVR 前的预对齐,PhyCo 讨论视频生成里的物理属性控制,FCMBench-Video 讨论文档证据随时间展开时的评测,Latent Adversarial Detection 讨论多轮攻击意图在激活轨迹中的信号。
本期我在看什么
前几期反复写了 workboard、trace、checkpoint 和可验证状态。这一期我想把问题往前推一点:如果最终答案已经写得很顺、视频已经看起来很像、文档 agent 已经给出判断,再去发现错误就太晚了。更有价值的问题是,漂移刚开始出现时有没有可检查的信号。
PRISM 关心的是训练前置状态:SFT 之后的多模态策略,是否已经偏离了后续 RL 能很好优化的分布。PhyCo 关心生成世界模型的控制面:如果视频模型不知道“摩擦”“反弹”“形变”“外力”这些变量,只靠外观学习很难可靠。FCMBench-Video 把文档理解从静态图片拉回视频流,强调证据什么时候出现、是否可读、是否被后来的视觉指令覆盖。Latent Adversarial Detection 则把多轮安全问题放到激活轨迹里看,而不是只看每一轮文本表面。
这期也按你的反馈处理表格:关键结果表我用 Markdown 重写,不再截图密集表格。图片只保留方法图和真正有助于理解的曲线。
论文细读笔记
PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning
作者:Sudong Wang, Weiquan Huang, Xiaomin Yu, Zuhao Yang, Hehai Lin, Keming Wu, Chaojun Xiao, Chen Chen, Wenxuan Wang, Beier Zhu, Yunjian Zhang, Chengwei Qin。
机构:香港科技大学(广州);清华大学;南洋理工大学;中国人民大学;中国科学技术大学;中国科学院大学。
日期/出处:2026 年 4 月 30 日,arXiv 预印本。
链接:arXiv | HTML | code

这张图把论文的核心位置说清楚了:不要默认 SFT 之后就可以直接进 RLVR。SFT 可能让策略既偏离原模型先验,也没有真正贴近高质量监督分布。PRISM 在 SFT 和 RLVR 之间插入一个分布对齐阶段。需要注意的是,作者并不声称对齐阶段本身直接提高答案正确率,它的目标是让后续 RL 从更合适的策略状态开始。

这张对齐架构图比单纯结果表更重要。判别器不是一个泛化的打分器,而是分成视觉感知专家和推理专家,用 Bradley-Terry 损失区分监督答案和当前策略 rollout。策略再用这个组合 reward 做 on-policy 更新。多模态任务里,视觉 grounding 错误和推理链错误确实不是同一种漂移,分开给信号是这篇的关键设计。
一句话核心 idea:PRISM 在 SFT 和 RLVR 之间加入黑盒 on-policy distillation,用感知和推理两个专家判别器分别修正多模态策略的分布漂移。
为什么重要:很多多模态 RL 论文把 SFT 当成无害冷启动。但这篇提醒我们,冷启动也可能把模型带到一个尴尬位置:表面上学会了监督数据的推理样式,却没有真正匹配目标分布,后续 RL 也不好救回来。如果这个判断成立,瓶颈就不只是 RL 算法,而是 RL 开始前策略到底处在什么状态。
方法拆解:
- 先用约 137 万样本做 SFT,其中包括 10.7 万个作者用 Gemini 3 Flash 构造并过滤的多模态推理样本,以及 126 万公开示范样本。
- 对齐阶段采样当前策略的输出,再和高质量监督回答比较。判别器有两个专家:一个看视觉描述是否 grounded,一个看推理轨迹是否一致。
- 判别器 reward 写成 (r(x,y)=\alpha D_v(x,c)+(1-\alpha)D_r(x,t)),其中 (c) 是视觉描述,(t) 是推理轨迹。
- 策略用组内归一化 advantage 更新,得到预对齐 checkpoint,最后再进入 GRPO、DAPO 或 GSPO 这样的 RLVR 阶段。
论文主结果的压缩版。
| 底座模型 | 普通 SFT 到 GRPO 平均分 | PRISM 到 GRPO 平均分 | 提升 |
|---|---|---|---|
| Qwen3-VL-4B | 61.8 | 66.2 | +4.4 |
| Qwen3-VL-8B | 63.3 | 69.3 | +6.0 |
这个表支撑的是“训练顺序”而不是单纯 leaderboard。PRISM 不是替代 RLVR,而是让 GRPO 从更接近监督分布的策略出发。8B 模型更有意思:普通 SFT 对 Instruct checkpoint 的伤害更明显,标准 RL 没能完全恢复,而 PRISM 加 GRPO 超过了原 Instruct 基线。
关键消融的压缩版。
| Qwen3-VL-4B + GRPO 设置 | 平均分 |
|---|---|
| PRISM 完整流程 | 66.2 |
| 单个 dense 4B 判别器 | 62.8 |
| 纯文本判别器 | 62.3 |
| 去掉对齐阶段 | 61.8 |
| 去掉 SFT | 49.4 |
这张表让我更相信作者的方法叙事。dense 判别器把感知和推理压成一个标量,信号会混在一起;纯文本判别器能学到推理模板和格式,却不能核验视觉描述是否真的对应图像。去掉 SFT 后,对抗对齐一开始差距太大,判别器很容易饱和;去掉对齐阶段,则退回普通 SFT 到 RLVR。

token efficiency 图补了一个部署角度。Qwen3-VL-4B 上,PRISM+GRPO 在 MathVision、MathVerse 和 MMMU-Pro 上用更少 token 得到更高准确率。这个证据我会谨慎读,因为 token 长度不等于推理质量,但它说明 PRISM 的收益不是单纯把答案写得更长。
我的判断:我会把 PRISM 当成“初始化质量”论文,而不是又一篇 RL 算法论文。它最有价值的地方是指出 SFT 可能留下一个不适合后续 RL 的策略分布。弱点也清楚:它依赖高质量监督数据和仔细训练的判别器。下一步我更想看这种预对齐能否迁移到工具 agent,把“感知专家”换成环境状态或工具状态专家。
对应主题:agentic training、多模态 RL、分布对齐、训练前检查。
PhyCo: Learning Controllable Physical Priors for Generative Motion
作者:Sriram Narayanan, Ziyu Jiang, Srinivasa G. Narasimhan, Manmohan Chandraker。
机构:Carnegie Mellon University;NEC Labs America;UC San Diego。
日期/出处:2026 年 4 月 30 日,arXiv 预印本;CVPR 2026。
链接:arXiv | HTML | project

PhyCo 的流程图说明这不是“再喂一点视频数据”。第一阶段用物理属性 map 条件化 ControlNet 分支,微调视频扩散模型;第二阶段用 VLM 做 physics-aware reward,对生成视频提出有针对性的物理问题。这个设计有价值,也有风险:VLM 评价器本身成为训练信号,所以它是否真的懂这些物理现象也必须被验证。

这张模拟数据图展示了数据设计的克制。作者不是追求任意复杂场景,而是让摩擦、反弹、形变、外力等变量在视觉运动中尽量清楚地显现。这个窄范围不是缺点的一部分,而是训练策略的一部分:如果场景复杂到基础扩散模型自己都难以表示,物理监督反而会变成噪声。
一句话核心 idea:PhyCo 让视频扩散模型接收空间对齐的物理属性图,再用 VLM 的物理问题反馈,提升生成运动的可控性和物理一致性。
为什么重要:视频生成模型经常“看起来像”,但动力学不对。物体滑动时不理会摩擦,碰撞后反弹不符合 restitution,软体形变像硬物。对世界模型来说,这不是审美瑕疵,而是能不能用于规划、机器人和模拟设计的根本问题。如果模型不能暴露和控制物理变量,就很难被当成可靠环境模型。
方法拆解:
- 作者构造了超过 10 万个 physics-rich 模拟视频,选择物理属性容易从运动中读出的交互场景。
- 物理属性被编码成空间 map:摩擦和反弹一组,Neo-Hookean 形变参数一组,外力大小和方向一组。
- 以 Cosmos-Predict2-2B 为视频扩散底座,冻结大部分基础权重,只训练 ControlNet 风格的属性条件分支。
- 额外微调一个 Qwen2.5-VL-3B 评价器,让它回答物理问题,再把 VLM logit 反馈变成可微 reward,继续优化生成器。
Physics-IQ 结果压缩版。
| 模型 | 120 帧设置 IQ 分 | 训练帧长设置 IQ 分 |
|---|---|---|
| Cosmos-Predict2-2B | 27.7 | 未报告 |
| VLIPP | 34.6 | 未报告 |
| PhyCo text-only | 30.9 | 36.5 |
| PhyCo ControlNet | 35.3 | 38.9 |
| PhyCo ControlNet + VLM loss | 36.3 | 43.6 |
这个表支持“显式物理条件有用”,但也要看它的边界。Physics-IQ 用 120 帧 24FPS,模型训练是 57 帧,作者同时报告了两种生成条件。方向是一致的:ControlNet 条件带来收益,VLM loss 进一步增强最强版本,尤其是在接近训练帧长的设置下。

这张图应该保留,因为任务本来就是视觉运动。图里展示了摩擦、反弹、形变、外力等属性输入如何影响代表性帧,白色区域标出空间属性输入位置。需要谨慎的是,定性帧很容易挑选得好看,所以它必须和上面的 Physics-IQ、用户研究和力方向指标一起看。
用户研究和消融证据。
| 证据 | 论文报告 |
|---|---|
| 2AFC 用户研究 | 用户在 friction 95.5%、restitution 100.0%、deformation 82.2%、force 91.1% 的比较中更偏好 PhyCo 而不是 CogVideoX。 |
| 25 个真实视频的外力方向 | PhyCo 平均角度误差 15.2 度,Force-Prompting 为 40.5 度。 |
| 合成属性消融 | ControlNet + VLM 的力方向误差为 22.53 度,不加 VLM 为 38.05 度。 |
这些数字让论文不只是 demo。用户研究看的是人对物理合理性的感受,外力方向误差看的是指定控制变量能否改变生成运动。真实视频只有 25 个,所以我会把它当成有用信号,而不是部署保证。
我的判断:PhyCo 最值得看的地方是把物理变量变成视频世界模型的控制面。它没有声称解决完整物理模拟,而是说,预训练视频模型如果能接收显式物理属性,并接受有针对性的物理 reward,会更可靠。下一步我会追它能不能走出干净物体交互,进入有遮挡、多物体、工具、手部和更复杂接触的场景。
对应主题:world models、物理先验、可控视频生成、reward-guided alignment。
FCMBench-Video: Benchmarking Document Video Intelligence
作者:Runze Cui, Fangxin Shang, Yehui Yang, Qing Yang, Yanwu Xu, Tao Chen。
机构:奇富科技 AI Lab;复旦大学;华南理工大学;琶洲实验室。
日期/出处:2026 年 4 月 28 日,2026 年 4 月 30 日更新,arXiv 预印本。
链接:arXiv | HTML | code/data

ADC workflow 是这篇的核心。作者没有直接发布含隐私的真实信贷视频,而是先录制可复用的单文档 handheld clips,再加可控的光照、模糊、压缩等退化,最后组合成长视频。这个设计试图保留真实采集动态,同时让数据可发布、可复现。需要注意的是,组合视频仍然是 benchmark 构造,不等于线上开户或风控视频的完整替代。
一句话核心 idea:FCMBench-Video 把文档智能从静态页面评测推进到时间轴上,要求模型在视频流里读文档、数文档、定位证据、跨文档验证,并抵抗最后出现的视觉提示注入。
为什么重要:很多 document agent 会把证据压成一张图或一段 OCR 文本。但真实远程核验里,证据是随时间出现的:文档进入镜头、短暂清晰、移走、重复出现,后面还可能跟着恶意视觉指令。真正有用的文档 agent 需要维护文档清单、时间定位、缺失证据时 abstain,以及记录为什么相信某段证据。
方法拆解:
- Atomic acquisition 阶段用手机录制单文档片段,保留进入、离开和最清晰的 golden window。
- Degradation injection 阶段加入反光、阴影、模糊、降采样和编码压缩;可读性标签由三名标注者验证。
- Composition 阶段把片段组合成 20 秒、40 秒、60 秒多文档视频,并生成确定性的时间标注和文档唯一性约束。
- 任务覆盖 classification、counting、temporal grounding、visual prompt injection、cross-document validation 和 evidence-grounded selection。
发布数据规模压缩版。
| 统计项 | 中文子集 | 英文子集 |
|---|---|---|
| 唯一身份 | 15 | 30 |
| 唯一原子文档 | 251 | 244 |
| 组合视频 | 405 | 795 |
| benchmark 指令 | 5,960 | 5,362 |
| 每个组合视频平均指令数 | 14.72 | 6.74 |
| 任务类别 | 7 | 6 |
这张表说明它不是一个更大的 DocVQA。基本单元是带身份结构和时间标注的组合视频。表里也能看到两个子集不对称:英文子集组合视频更多,中文子集任务类别更多,并包含 cross-document validation。

整体性能图用来判断 benchmark 是否已经饱和。论文报告整体分布均值 46.73、标准差 18.42,模型没有挤在满分或零分附近,而是在中间拉开差距。随发布时间前沿模型分数上升,说明 benchmark 能跟踪能力进展;同一时期模型差距仍然很大,说明它不是只测噪声。
代表性任务结果。
| 模型和子集 | 分类 | 计数 | 时间定位 | 视觉提示注入 ASR | 证据选择 |
|---|---|---|---|---|---|
| Gemini-3.0-Pro,中文 | 75.15 | 67.09 | 79.14 | 12.24 | 73.04 |
| Qwen3.5-27B,中文 | 73.06 | 39.33 | 69.43 | 18.89 | 67.32 |
| Gemini-3.0-Pro,英文 | 90.98 | 67.92 | 80.39 | 0.38 | 76.99 |
| Qwen3.5-27B,英文 | 91.53 | 59.77 | 75.74 | 2.08 | 86.85 |
这里视觉提示注入 ASR 越低越好。表里能看到单一总分不够:Gemini 在定位和 ASR 上很强,Qwen3.5-27B 在英文 evidence-grounded selection 上更强。计数普遍比分类难,这和论文观点一致:维持去重文档清单比识别文档类型更难。

duration 曲线是我会给做文档 agent 的人看的图。视频从 20 秒变到 60 秒,计数下降最明显,分类相对稳定。这说明长上下文不是均匀增加难度,而是专门打击状态维护:漏掉文档、重复计数、把答案绑定到错误时间段,都会在长视频里放大。
输出有效性压缩版。
| 模型 | 格式有效 | 空输出 | 格式错误 |
|---|---|---|---|
| Kimi-VL-A3B-Instruct | 9.52 | 90.48 | 0.00 |
| InternVL3-8B | 93.76 | 6.24 | 0.00 |
| Gemini-3.0-Pro-Preview | 97.05 | 2.95 | 0.00 |
| Qwen3.5-27B | 100.00 | 0.00 | 0.00 |
这个表把 parser 问题和语义问题分开了。除了 Kimi-VL-A3B-Instruct,大多数模型多数时候能输出可解析格式。剩下的主要错误不是格式,而是没有正确读取、保持、比较或拒绝视频里的证据。
我的判断:FCMBench-Video 的价值在于把文档智能往真实工作流形状推进了一步。我尤其喜欢它把 visual prompt injection 放进视频末尾,但也不会把这个任务过度解读为干净的安全指标,因为作者自己说明它把 recency bias 和恶意指令服从混在一起。主要局限是评测协议不完全同构:商业模型用原生 raw-video API,开源模型则有不同采样和 serving 路径。即使如此,它仍然值得追,因为它测的是文档 agent 真正需要的证据账本。
对应主题:文档智能、多模态 agent、时间证据定位、可审计证据流。
Latent Adversarial Detection: Adaptive Probing of LLM Activations for Multi-Turn Attack Detection
作者:Prashant Kulkarni。
机构:未注明;论文列出地点为 Mountain View, CA。
日期/出处:2026 年 4 月 30 日,arXiv 预印本。
链接:arXiv | HTML

这张 pipeline 图把 LAD 的对象讲清楚了。系统从目标 LLM 抽取激活,经由 contrastive MLP 投到 128 维空间,再拼接五个轨迹标量,用 XGBoost 做逐轮分类。论文没有声称得到通用检测器,而是提出一种模型专属 probe:看对话在激活空间里怎么移动。
一句话核心 idea:多轮攻击每一轮文本都可能看起来无害,但对话从建立信任、试探、转向到升级的过程,会在 residual stream 激活轨迹中留下“adversarial restlessness”。
为什么重要:文本过滤器最怕的是攻击者避开明显危险词。对 agent 更难的是长对话逐渐改变模型愿意考虑的事情,而不是一条明确恶意 prompt。如果内部状态在最终危险请求出现前已经移动,激活 probe 就可能比输入分类器更早报警。
方法拆解:
- 每个用户 turn 抽取一个 residual-stream 激活向量 (v_t),位置是中后层 decoder。
- 计算五个轨迹标量:drift magnitude、和上一轮的 cosine shift、cumulative drift、drift acceleration、mean drift。
- 主特征写作 (x_t=[v_t;|\Delta_t|,\cos(v_t,v_{t-1}),C_t,a_t,\bar d_t])。contrastive 版本先把原激活映射到 128 维,再拼同样五个标量。
- 任一 turn 超过固定阈值就标记整段对话。lead time 写成 (\tau_{\text{lead}}=t^*{\text{adv}}-t{\text{detect}}),正数表示在第一个 adversarial turn 之前就触发。
检测证据压缩版。
| 设置 | 论文报告 |
|---|---|
| 合成 held-out,Gemma 3 27B | 只用激活为 76.2%;加入轨迹标量后达到 93.8%,false positive 为 3.5%。 |
| 更长 pivoting 数据 | early detection 为 66-83%,原短 pivot 设置为 22-26%。 |
| 跨模型合成复现 | 每个模型单独训练 probe,检测率 89-96%,false positive 为 0.5-2.0%。 |
| 三源混合 held-out | 最好一行是 Qwen 2.5 32B,检测率 89.4%,false positive 2.4%。 |
这组证据应该被读成“轨迹信号”,而不是神奇激活指纹。只用五个标量也能检测很多攻击,但 false positive 风险很大;加入激活后 precision 才回来。更长 pivoting 阶段更容易提前检测也符合直觉:攻击者绕得越久,轨迹 probe 看到的移动越多。

跨模型图显示,Gemma、Mistral、Qwen、Llama 家族上都能复现这个现象,但前提是每个模型训练自己的 probe。这既是好消息也是坏消息。好消息是 adversarial restlessness 不像某个模型偶然特征;坏消息是 probe 不能干净跨架构迁移,部署时要按目标模型训练和维护。

这张图从合成评测转到混合 held-out。最好结果是 Qwen 2.5 32B 的 89.4% 检测率和 2.4% false positive。论文也明确指出数据要求:只用合成数据训练的 probe 在真实 LMSYS-Chat-1M 上会出现极端 false positive。混合训练不是小细节,而是方法能不能部署的前提。
泛化和 baseline 检查。
| 检查 | 结果 |
|---|---|
| PromptGuard 零样本 | 对话检测率 19.8%,对话 false positive 16.1% |
| LLM Guard 零样本 | 检测率 29.0%,false positive 27.9% |
| Lakera Guard 零样本 | 检测率 95.2%,false positive 76.3% |
| LAD 模型专属 probe | 检测率 85.3-89.4%,false positive 2.4-4.0% |
| 训练时去掉 LMSYS | LMSYS 评测 false positive 100% |
| 训练时去掉 SafeDial | SafeDial 评测检测率 0% |
这张表是避免过度宣传的关键。LAD 在论文设置里比这些现成工具有更好的 precision-recall 折中,但前提是使用部署分布训练。leave-one-source-out 结果很直白:它不是 source-agnostic 检测器,需要有代表性的 benign 和 attack 分布。
我的判断:这篇入选,是因为它有公式、有机制线索,也有很硬的负面条件。沿着对话看 activation path length,对 agent safety 是有意义的,尤其是长期会话或工具 agent 被逐步引导的场景。但它限制很重:需要激活访问、需要按模型训练、需要分布内数据。我会把 LAD 看成有潜力的运行时传感器,而不是独立防线。
对应主题:大模型机理、多轮 agent safety、激活 probe、运行时监控。
阅读优先级和下期问题
如果关心多模态 agent 训练,我会先读 PRISM;如果关心真实文档工作流,我会先读 FCMBench-Video;如果关心运行时安全传感器,我会先读 LAD;如果关心视频 world model,我会先读 PhyCo。
下期我想继续追的问题:
- PRISM 这种预对齐能不能从感知/推理专家,迁移到工具状态/环境状态专家?
- 物理属性 map 能不能从干净物体交互扩展到有工具、手部、遮挡和多物体接触的场景?
- 文档视频 agent 能不能输出持久证据账本:读到了什么、什么时候可见、为什么可信?
- 激活轨迹 probe 能不能拿到足够代表性的 benign 数据,避免变成另一种脆弱分类器?