研究周报 · 2026.03.22–03.28 · PSR 实验 Block1-3 与方向复盘

本周主线：PSR 实验验证 + 方向复盘。
跑通了 ProbeCommitEnv 上 8 种方法（PSR / AE / MaskedAE / MaskMA / TIMAR / NextStep / CPC / Scratch）的横向对比，以及与学长的 idea sharing meeting。

一、概览

PSR 实验验证：在 ProbeCommitEnv 上完成 Block 1–3 全部实验（Kill Test、Sample Efficiency、Adaptation Ablation、Nuisance Robustness、Theorem Validation），跑通了 light 版（本地 RTX 4060）和 full 版（服务器 RTX 3090），系统梳理了正面结果与负面结果
与学长讨论：组织了一轮 PSR idea sharing meeting，明确了后续研究方向应当与 LLM 场景结合（MARL + LLM Agent），因为师哥师姐在 LLM 研究方向上造诣较深，可获得更多指导
方向复盘与规划：整理了 PSR 当前存在的核心问题、后续投稿策略，以及下一步行动计划

二、experiment

2.1 实验框架

在自建的 ProbeCommitEnv（2-agent, 4-step Dec-POMDP）上，横向对比了 8 种方法：PSR、AE、MaskedAE、MaskMA、TIMAR、NextStep、CPC、Scratch。实验分 5 个 block 进行验证。

2.2 正面结果

维度	结论	关键数据
表示选择性	PSR 是唯一能做到 u-probe≈1.0 且 n-R²<0.05 的方法	easy: u=1.000, n_R²=0.019; hard: u=0.999, n_R²=0.006
pretrained baselines 内最优	PSR 在 frozen eval 下一致赢过所有预训练 baseline	easy: 75.1% vs AE 71.9%; hard: 60.6% vs AE 53.1%
nuisance 压制机制成立	nuisance 增大时 PSR 的 n_R² 稳定 <0.05，AE 一路上升至 0.998	机制验证通过，PSR 的 inductive bias 偏向"只抓合作相关结构"
frozen linear 协议下最优	Adaptation ablation 中 PSR frozen_linear=64.2%，优于 Scratch 56.7%	说明 PSR 表示质量确实更高

2.3 negative result

问题	详情
打不过 Scratch	hard setting: PSR 60.6% vs Scratch 71.3%，差距 10.7pp
长训练退化	Full 版（200k updates）PSR 从 75.1% 退化到 67.2%，怀疑 adversarial head 过于激进
理论验证失败	Spearman(ε̂, gap)=-0.17, R²=0.013，ε̂ 完全不能预测 transfer gap
nuisance 压制可能过头	z≥16 时 PSR 性能下降反而比 AE 更多（15.5pp vs 8.5pp）
sample efficiency 无交叉	PSR 在所有 downstream budget 下都没赢过 Scratch

2.4 猜想

环境太简单（4-step, Scratch 几千 episode 即可收敛）可能是当前负面结果的根本原因，PSR 的信息选择优势需要更复杂的环境才能体现。

三、meeting

3.1 讨论要点

研究动机、方法设计、实验结果与存在问题
学长确认 PSR 方向的基本思路可行，但需要完善内容很多：

Introduction 和 Related Work 需要打磨得非常精细，这是论文最重要的部分。
打通 user story（研究为什么重要、解决什么问题），因为当前 method 部分在 LLM 时代不算特别新颖，关键看方向是否有意义且新颖。
冯导对 intro 和 related work 的逻辑严谨性要求很高。

四、后续若要推进必须完善的点

4.1 motivation

问题	说明
为什么选 multi-agent 而不是单 agent？	需要清晰论述 MARL 相比单 agent RL 的独特价值与研究前景
为什么去除 nuisance 就能改善协作？	需要更严格的论证：partner-sufficient 信息是否真的够用？是否有反例？
如何定义 nuisance？	nuisance 的定义依赖于模型能力和应用场景。推理能力强的模型可能不认为某些信息是 nuisance；不同应用场景下 nuisance 的边界不同。需要形式化的、场景可适配的定义

4.2 novelty

问题	说明
是否已有类似工作？	需要系统调研：是没人做过？有人做过但失败了？还是前人已经证明成功了？必须自己亲自做这项调研，不能盲目依赖 LLM
在 LLM 场景下的独特性	PSR 从传统 MARL 迁移到 LLM Agent 场景时，其核心贡献是否仍然成立？

4.3 experiment

问题	说明
缺少真实 benchmark	没有 Overcooked/Hanabi 等标准环境的验证，难以证明外部效度
Scratch baseline 过强	当前环境下 end-to-end 训练太强，预训练优势不明显
adversarial 训练不稳定	长训练下 PSR 退化，需要改进训练策略

五、To-Do List

5.1 未来若要投稿论文

[ ] 关注三大顶会投稿 DDL：ICLR（一般 9–10 月截稿）、ICML（一般 1–2 月截稿）、NeurIPS（一般 5–6 月截稿）
[ ] 重点打磨 Introduction 和 Related Work
[ ] 打通 user story：为什么这个方向重要？解决了什么核心痛点？
[ ] 方法部分注重与 LLM 时代的结合点
[ ] 自己做文献调研：系统检索 partner-sufficient / nuisance-robust representation 在 MARL 中是否已有类似工作
[ ] 论证 MARL 的前景优势（为什么选 multi-agent 而不是 single agent）
[ ] 明确 nuisance 在不同场景下的形式化定义
[ ] 论证 partner-sufficient 信息为什么能改善协作（理论 + 直觉）

5.2 学校方面

[ ] 填写学校新人工智能开放实验室开放课题申请书
[ ] 找冯导确认研究方向的可行性
[ ] 与组内师兄分工合作，推进科研基金补助申请
[ ] 逐步熟悉智算中心的 A100 GPU 集群使用方法，为后续部署 veRL 框架和跑实验做准备

5.3 技术层面

[ ] 将 PSR 方向与 LLM Agent 场景结合，思考具体的问题建模方式
[ ] 解决 adversarial 训练退化问题（考虑 early stopping / 梯度裁剪 / 渐进式 adversarial weight）
[ ] 重做 estimator
[ ] 定义真实环境里的 nuisance
[ ] 准备真实 benchmark pilot（优先 Overcooked，后续 Hanabi）

📄 本周附表（meeting report 详细讨论笔记）不在博客公开，仅保留以上技术讨论的概览与行动项。