2026 年
- 研究周报 · 2026.04.26–05.09 · C3/CCPO 反事实信用分配与 minimal-agent-harness 搭建
- 研究周报 · 2026.04.19–04.25 · DAPO/GiGPO/MAPPA/Dr.MAS 精读与 sub2api 实践
- 研究周报 · 2026.04.12–04.18 · Credit Assignment Survey、SHARP 精读与 Q&A
- 研究周报 · 2026.04.06–04.12 · 基础概念补齐与 LLM-MAS 论文精读
- 多智能体 LLM RL 训练:当前 landscape
- Stronger-MAS 细读总结
- Agentic RL 经典 Baselines 综述