本周主线:PSR 实验验证 + 方向复盘。
跑通了 ProbeCommitEnv 上 8 种方法(PSR / AE / MaskedAE / MaskMA / TIMAR / NextStep / CPC / Scratch)的横向对比,以及与学长的 idea sharing meeting。
一、概览
- PSR 实验验证:在 ProbeCommitEnv 上完成 Block 1–3 全部实验(Kill Test、Sample Efficiency、Adaptation Ablation、Nuisance Robustness、Theorem Validation),跑通了 light 版(本地 RTX 4060)和 full 版(服务器 RTX 3090),系统梳理了正面结果与负面结果
- 与学长讨论:组织了一轮 PSR idea sharing meeting,明确了后续研究方向应当与 LLM 场景结合(MARL + LLM Agent),因为师哥师姐在 LLM 研究方向上造诣较深,可获得更多指导
- 方向复盘与规划:整理了 PSR 当前存在的核心问题、后续投稿策略,以及下一步行动计划
二、experiment
2.1 实验框架
在自建的 ProbeCommitEnv(2-agent, 4-step Dec-POMDP)上,横向对比了 8 种方法:PSR、AE、MaskedAE、MaskMA、TIMAR、NextStep、CPC、Scratch。实验分 5 个 block 进行验证。
2.2 正面结果
| 维度 | 结论 | 关键数据 |
|---|---|---|
| 表示选择性 | PSR 是唯一能做到 u-probe≈1.0 且 n-R²<0.05 的方法 | easy: u=1.000, n_R²=0.019; hard: u=0.999, n_R²=0.006 |
| pretrained baselines 内最优 | PSR 在 frozen eval 下一致赢过所有预训练 baseline | easy: 75.1% vs AE 71.9%; hard: 60.6% vs AE 53.1% |
| nuisance 压制机制成立 | nuisance 增大时 PSR 的 n_R² 稳定 <0.05,AE 一路上升至 0.998 | 机制验证通过,PSR 的 inductive bias 偏向"只抓合作相关结构" |
| frozen linear 协议下最优 | Adaptation ablation 中 PSR frozen_linear=64.2%,优于 Scratch 56.7% | 说明 PSR 表示质量确实更高 |
2.3 negative result
| 问题 | 详情 |
|---|---|
| 打不过 Scratch | hard setting: PSR 60.6% vs Scratch 71.3%,差距 10.7pp |
| 长训练退化 | Full 版(200k updates)PSR 从 75.1% 退化到 67.2%,怀疑 adversarial head 过于激进 |
| 理论验证失败 | Spearman(ε̂, gap)=-0.17, R²=0.013,ε̂ 完全不能预测 transfer gap |
| nuisance 压制可能过头 | z≥16 时 PSR 性能下降反而比 AE 更多(15.5pp vs 8.5pp) |
| sample efficiency 无交叉 | PSR 在所有 downstream budget 下都没赢过 Scratch |
2.4 猜想
环境太简单(4-step, Scratch 几千 episode 即可收敛)可能是当前负面结果的根本原因,PSR 的信息选择优势需要更复杂的环境才能体现。
三、meeting
3.1 讨论要点
- 研究动机、方法设计、实验结果与存在问题
- 学长确认 PSR 方向的基本思路可行,但需要完善内容很多:
Introduction 和 Related Work 需要打磨得非常精细,这是论文最重要的部分。
打通 user story(研究为什么重要、解决什么问题),因为当前 method 部分在 LLM 时代不算特别新颖,关键看方向是否有意义且新颖。
冯导对 intro 和 related work 的逻辑严谨性要求很高。
四、后续若要推进必须完善的点
4.1 motivation
| 问题 | 说明 |
|---|---|
| 为什么选 multi-agent 而不是单 agent? | 需要清晰论述 MARL 相比单 agent RL 的独特价值与研究前景 |
| 为什么去除 nuisance 就能改善协作? | 需要更严格的论证:partner-sufficient 信息是否真的够用?是否有反例? |
| 如何定义 nuisance? | nuisance 的定义依赖于模型能力和应用场景。推理能力强的模型可能不认为某些信息是 nuisance;不同应用场景下 nuisance 的边界不同。需要形式化的、场景可适配的定义 |
4.2 novelty
| 问题 | 说明 |
|---|---|
| 是否已有类似工作? | 需要系统调研:是没人做过?有人做过但失败了?还是前人已经证明成功了?必须自己亲自做这项调研,不能盲目依赖 LLM |
| 在 LLM 场景下的独特性 | PSR 从传统 MARL 迁移到 LLM Agent 场景时,其核心贡献是否仍然成立? |
4.3 experiment
| 问题 | 说明 |
|---|---|
| 缺少真实 benchmark | 没有 Overcooked/Hanabi 等标准环境的验证,难以证明外部效度 |
| Scratch baseline 过强 | 当前环境下 end-to-end 训练太强,预训练优势不明显 |
| adversarial 训练不稳定 | 长训练下 PSR 退化,需要改进训练策略 |
五、To-Do List
5.1 未来若要投稿论文
- [ ] 关注三大顶会投稿 DDL:ICLR(一般 9–10 月截稿)、ICML(一般 1–2 月截稿)、NeurIPS(一般 5–6 月截稿)
- [ ] 重点打磨 Introduction 和 Related Work
- [ ] 打通 user story:为什么这个方向重要?解决了什么核心痛点?
- [ ] 方法部分注重与 LLM 时代的结合点
- [ ] 自己做文献调研:系统检索 partner-sufficient / nuisance-robust representation 在 MARL 中是否已有类似工作
- [ ] 论证 MARL 的前景优势(为什么选 multi-agent 而不是 single agent)
- [ ] 明确 nuisance 在不同场景下的形式化定义
- [ ] 论证 partner-sufficient 信息为什么能改善协作(理论 + 直觉)
5.2 学校方面
- [ ] 填写学校新人工智能开放实验室开放课题申请书
- [ ] 找冯导确认研究方向的可行性
- [ ] 与组内师兄分工合作,推进科研基金补助申请
- [ ] 逐步熟悉智算中心的 A100 GPU 集群使用方法,为后续部署 veRL 框架和跑实验做准备
5.3 技术层面
- [ ] 将 PSR 方向与 LLM Agent 场景结合,思考具体的问题建模方式
- [ ] 解决 adversarial 训练退化问题(考虑 early stopping / 梯度裁剪 / 渐进式 adversarial weight)
- [ ] 重做 estimator
- [ ] 定义真实环境里的 nuisance
- [ ] 准备真实 benchmark pilot(优先 Overcooked,后续 Hanabi)
📄 本周附表(meeting report 详细讨论笔记)不在博客公开,仅保留以上技术讨论的概览与行动项。