姓名: 李晟昊
日期: 2026 年 3 月 21 日
指导老师: 冯磊
研究方向: Agentic Reinforcement Learning / Model-Based RL
一、本周工作概览
本周主要完成以下三部分工作:
- 文献阅读:精读 4 篇 Agentic RL 领域的综述与实验论文,建立领域知识框架
- 研究问题提出:聚焦 World Model 与 Policy 的 Objective Mismatch 问题,提出基于 Contrastive Alignment 的解决思路
- 实验验证:通过 7 轮迭代实验,从 idea 到可验证方案,初步验证了 Disentangled Partial Alignment 方法的有效性
二、文献阅读
2.1 论文列表
| 序号 | 论文 | 发表 | 类型 |
|---|---|---|---|
| 1 | Zhang et al., The Landscape of Agentic Reinforcement Learning for LLMs: A Survey | TMLR 2026 | 综述 (95pp) |
| 2 | Wang & Ammanabrolu, A Practitioner’s Guide to Multi-turn Agentic Reinforcement Learning | Under Review 2025 | 实验 (20pp) |
| 3 | Pignatelli et al., A Survey of Temporal Credit Assignment in Deep Reinforcement Learning | TMLR 2024 | 综述 (56pp) |
| 4 | Wei et al., Agentic Reasoning for Large Language Models | Survey 2026 | 综述 (135pp) |
2.2 核心概念梳理
Agentic RL 的范式转变: 传统 LLM RL(如 RLHF)本质上是一个退化的单步 MDP,而 Agentic RL 将 LLM 视为嵌入动态环境中的多步决策者,建模为 POMDP:
其中 agent 只能观察到部分状态 ,动作空间包含文本生成和环境交互两个子空间 。优化目标为:
Temporal Credit Assignment 问题(Pignatelli et al.): 在多步决策中,如何将最终奖励归因到各步动作,是 Agentic RL 区别于传统 LLM RL 的核心难题。该综述提出了统一的赋值函数形式化:
并将挑战归纳为三个 MDP 维度:Depth(延迟效应)、Density(稀疏奖励)、Breadth(credit 稀释)。
2.3 论文对比分析
| 维度 | Zhang 2026 | Wang 2025 | Pignatelli 2024 | Wei 2026 |
|---|---|---|---|---|
| 核心视角 | RL 赋能 Agent 能力 | 多轮 RL 实践 recipe | CA 数学本质 | Reasoning 组织行为 |
| 形式化 | PBRFT MDP vs POMDP | POMDP 三支柱 | Assignment function | POMDP + reasoning trace |
| 关键发现 | RL 是静态→自适应的关键 | PPO >> GRPO(多轮) | Depth/Density/Breadth | In-context vs Post-training 互补 |
| 核心瓶颈 | Temporal CA | Reward density | Delayed effects | World modeling |
2.4 启发
- RL 算法选择:在多轮 agentic 任务中,PPO 显著优于 GRPO(Wang 2025 实验:w4-o6-q8 任务上 PPO 72% vs GRPO 36%)
- World Model 是开放问题:Wei et al. 在 Section 8.3 明确指出 “An open problem is how to jointly train, update, and evaluate world models in non-stationary environments”
- Objective Mismatch:Zhang et al. 引用 Pignatelli 的 temporal credit assignment 工作,指出这是 long-horizon tool-integrated reasoning 的核心瓶颈
三、研究问题与思路
3.1 问题定义
在 Model-Based RL 中,World Model(WM)和 Policy 存在 Objective Mismatch(Lambert et al., 2020):
- WM 训练目标:最小化预测误差(next-state/token prediction)
- Policy 训练目标:最大化期望回报
WM 在状态空间中均匀追求预测精度,但 Policy 只关心对决策有影响的状态区域。这导致 WM 可能在 policy 不会访问的区域浪费拟合能力,同时在关键决策边界上精度不足。
3.2 已有方法
| 方法 | 核心思路 | 局限 |
|---|---|---|
| VaGraM (Voelcker 2023) | 用 value gradient 加权 model loss | 单向对齐 |
| MuZero (2020) | 纯 value/policy/reward loss 训练 model | 依赖 MCTS |
| TD-MPC (Hansen 2022) | Latent consistency + TD + reward | 未显式对齐 |
| DreamerV3 (Hafner 2023) | Shared latent + stop-gradient | 隐式对齐,仍有 reconstruction |
| Value Equivalence (Grimm 2020) | Model 只需 value-equivalent | 理论框架 |
3.3 我的研究思路:Contrastive Objective Alignment (COA)
核心 idea: 类比多模态对齐(如 CLIP 将图像和文本映射到同一空间),将 WM 和 Policy 的表征映射到一个 shared latent space 进行 joint training。
具体方案(经过实验迭代后的最终版本): Disentangled Partial Alignment
对齐 loss 仅作用于 shared subspace:
总损失为:
设计动机:
- Dual encoder:WM 和 Policy 各自拥有独立编码器,objective mismatch 体现在两个编码器学到不同的表征
- Disentangled:每个编码器输出分为 shared(对齐)和 private(自由)两部分,防止对齐约束过强锁住 policy 优化
- Partial alignment:只对齐 shared subspace,允许 private subspace 保留各自任务特有信息
四、实验验证
4.1 实验环境
- SimpleEnv:自定义 4 维状态空间,其中维度 0、1 与 reward 相关,维度 2、3 为干扰项(distractor),天然存在 objective mismatch
- 状态转移:,
- 奖励:(仅依赖维度 0、1)
- Horizon = 5 步
4.2 迭代过程与关键发现
实验共进行 7 轮迭代,逐步修正方案:
| 轮次 | 方案 | 结果 | 关键发现 |
|---|---|---|---|
| R1 | Shared encoder + COA | 稳定但不学习 | InfoNCE 过强 |
| R2 | 多 seed 验证 (5 seeds) | COA 完全锁住 policy | Shared encoder 下 COA 退化 |
| R3 | Lambda sweep (7 values) | 任何 都锁住 | 问题不在 大小 |
| R4 | Dual encoder + COA | 消除 diverge 但锁住 | InfoNCE 在 dual encoder 下仍过强 |
| R5 | 软对齐 (soft_cos / mse_norm / annealing) | 全空间对齐均锁住;annealing 证实因果 | 问题在于对齐整个表征空间 |
| R6 | Disentangled partial alignment | 首次同时稳定且学习 | 突破:只对齐 shared subspace |
| R7 | 扩展到 2000eps + ratio sweep | 验证通过 | 最终方案确定 |
4.3 最终实验结果
实验配置: 2000 episodes, 3 random seeds, target networks (Polyak )
| 方法 | Ep200 | Ep1000 | Ep1500 | Ep2000 | 稳定性 |
|---|---|---|---|---|---|
| SharedEnc (Dreamer-style) | 3.91 | 灾难 | |||
| DualEnc (无对齐) | -6.21 | 灾难 | |||
| Partial (s=8, p=24) | 3.37 | -5.04 | -273 | 最终 diverge | |
| Partial (s=16, p=16, =0.2) | 3.17 | 3.27 | 3.39 | 3.41 ± 0.09 | 稳定 |
| Partial (s=24, p=8, =0.1) | 3.15 | 3.20 | 3.22 | 3.24 ± 0.05 | 最稳定 |
| Partial (=0.05) | 3.24 | 3.42 | -22.25 | -22.05 | 后期 diverge |
核心结论:
- Objective mismatch 导致灾难性训练崩溃:所有无对齐的 baseline 均 diverge 到极端负值(– 量级)
- Disentangled Partial Alignment 有效解决该问题:Partial (s=16, p=16, =0.2) 在 2000 episodes 内持续改善(3.17→3.41)且完全稳定(std=0.09)
- Shared/Private 比例存在 trade-off:更多 shared dim → 更稳定但学习更慢;更多 private dim → 学习更快但可能 diverge
4.4 方法演进逻辑
Shared Encoder COA (失败:COA退化)
↓ 发现需要独立编码器
Dual Encoder + InfoNCE (失败:锁住policy)
↓ 发现对齐过强
Dual Encoder + 软对齐 (失败:全空间对齐仍过强)
↓ 发现不应对齐全部表征
Dual Encoder + Disentangled Partial Alignment (成功)
↓ 只对齐shared subspace,保留private自由度
五、下周计划
- 扩展验证:将 COA 方法集成到 DreamerV3 框架中,在 DMControl 标准 benchmark 上测试
- LLM Agent 场景:在 TextWorld/ALFWorld 上验证,其中 LLM 的 next-token prediction 作为 WM
- 理论分析:推导 partial alignment 对 policy performance bound 的影响
- 论文写作准备:整理相关工作,确定投稿目标
六、参考文献
- Lambert, N., Amos, B., Yadan, O., & Calandra, R. (2020). Objective mismatch in model-based reinforcement learning. arXiv:2002.04523.
- Voelcker, C., Liao, V., Garg, A., & Farahmand, A. (2023). Value gradient weighted model-based reinforcement learning. ICLR 2023.
- Schrittwieser, J., et al. (2020). Mastering Atari, Go, Chess and Shogi by planning with a learned model. Nature.
- Hafner, D., et al. (2023). Mastering diverse domains through world models. arXiv:2301.04104.
- Hansen, N., Wang, X., & Su, H. (2022). Temporal difference learning for model-based planning. ICML 2022.
- Grimm, C., Barreto, A., Singh, S., & Silver, D. (2020). The value equivalence principle for model-based reinforcement learning. NeurIPS 2020.
- Zhang, G., et al. (2026). The landscape of agentic reinforcement learning for LLMs: A survey. TMLR.
- Wang, R., & Ammanabrolu, P. (2025). A practitioner’s guide to multi-turn agentic reinforcement learning. Under Review.
- Pignatelli, E., et al. (2024). A survey of temporal credit assignment in deep reinforcement learning. TMLR.
- Wei, T., et al. (2026). Agentic reasoning for large language models. Survey.