研究周报 · 2026.03.15–03.21 · Agentic RL 综述与 WM/Policy 对齐

字数 1,770 预计阅读 5 分钟

精读 4 篇 Agentic RL 综述,提出 Disentangled Partial Alignment 解决 WM/Policy Objective Mismatch,通过 7 轮迭代实验验证方案有效。

作者 Yoyo_Lee 发表于

姓名: 李晟昊
日期: 2026 年 3 月 21 日
指导老师: 冯磊
研究方向: Agentic Reinforcement Learning / Model-Based RL

一、本周工作概览

本周主要完成以下三部分工作:

  1. 文献阅读:精读 4 篇 Agentic RL 领域的综述与实验论文,建立领域知识框架
  2. 研究问题提出:聚焦 World Model 与 Policy 的 Objective Mismatch 问题,提出基于 Contrastive Alignment 的解决思路
  3. 实验验证:通过 7 轮迭代实验,从 idea 到可验证方案,初步验证了 Disentangled Partial Alignment 方法的有效性

二、文献阅读

2.1 论文列表

序号 论文 发表 类型
1 Zhang et al., The Landscape of Agentic Reinforcement Learning for LLMs: A Survey TMLR 2026 综述 (95pp)
2 Wang & Ammanabrolu, A Practitioner’s Guide to Multi-turn Agentic Reinforcement Learning Under Review 2025 实验 (20pp)
3 Pignatelli et al., A Survey of Temporal Credit Assignment in Deep Reinforcement Learning TMLR 2024 综述 (56pp)
4 Wei et al., Agentic Reasoning for Large Language Models Survey 2026 综述 (135pp)

2.2 核心概念梳理

Agentic RL 的范式转变: 传统 LLM RL(如 RLHF)本质上是一个退化的单步 MDP,而 Agentic RL 将 LLM 视为嵌入动态环境中的多步决策者,建模为 POMDP:

S,O,A,P,R,γ\langle \mathcal{S}, \mathcal{O}, \mathcal{A}, P, R, \gamma \rangle

其中 agent 只能观察到部分状态 ot=O(st)o_t = O(s_t),动作空间包含文本生成和环境交互两个子空间 A=AtextAaction\mathcal{A} = \mathcal{A}_{\text{text}} \cup \mathcal{A}_{\text{action}}。优化目标为:

J(θ)=Eτπθ[t=0T1γtR(st,at)]J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_{t=0}^{T-1} \gamma^t R(s_t, a_t)\right]

Temporal Credit Assignment 问题(Pignatelli et al.): 在多步决策中,如何将最终奖励归因到各步动作,是 Agentic RL 区别于传统 LLM RL 的核心难题。该综述提出了统一的赋值函数形式化:

K:C×A×GYK: \mathcal{C} \times \mathcal{A} \times \mathcal{G} \to \mathcal{Y}

并将挑战归纳为三个 MDP 维度:Depth(延迟效应)、Density(稀疏奖励)、Breadth(credit 稀释)。

2.3 论文对比分析

维度 Zhang 2026 Wang 2025 Pignatelli 2024 Wei 2026
核心视角 RL 赋能 Agent 能力 多轮 RL 实践 recipe CA 数学本质 Reasoning 组织行为
形式化 PBRFT MDP vs POMDP POMDP 三支柱 Assignment function POMDP + reasoning trace
关键发现 RL 是静态→自适应的关键 PPO >> GRPO(多轮) Depth/Density/Breadth In-context vs Post-training 互补
核心瓶颈 Temporal CA Reward density Delayed effects World modeling

2.4 启发

  • RL 算法选择:在多轮 agentic 任务中,PPO 显著优于 GRPO(Wang 2025 实验:w4-o6-q8 任务上 PPO 72% vs GRPO 36%)
  • World Model 是开放问题:Wei et al. 在 Section 8.3 明确指出 “An open problem is how to jointly train, update, and evaluate world models in non-stationary environments”
  • Objective Mismatch:Zhang et al. 引用 Pignatelli 的 temporal credit assignment 工作,指出这是 long-horizon tool-integrated reasoning 的核心瓶颈

三、研究问题与思路

3.1 问题定义

在 Model-Based RL 中,World Model(WM)和 Policy 存在 Objective Mismatch(Lambert et al., 2020):

  • WM 训练目标:最小化预测误差(next-state/token prediction)

Lmodel=E[fθ(st,at)st+12]\mathcal{L}_{\text{model}} = \mathbb{E}\left[\|f_\theta(s_t, a_t) - s_{t+1}\|^2\right]

  • Policy 训练目标:最大化期望回报

J(π)=Eπ[tγtrt]J(\pi) = \mathbb{E}_\pi\left[\sum_t \gamma^t r_t\right]

WM 在状态空间中均匀追求预测精度,但 Policy 只关心对决策有影响的状态区域。这导致 WM 可能在 policy 不会访问的区域浪费拟合能力,同时在关键决策边界上精度不足。

3.2 已有方法

方法 核心思路 局限
VaGraM (Voelcker 2023) 用 value gradient 加权 model loss 单向对齐
MuZero (2020) 纯 value/policy/reward loss 训练 model 依赖 MCTS
TD-MPC (Hansen 2022) Latent consistency + TD + reward 未显式对齐
DreamerV3 (Hafner 2023) Shared latent + stop-gradient 隐式对齐,仍有 reconstruction
Value Equivalence (Grimm 2020) Model 只需 value-equivalent 理论框架

3.3 我的研究思路:Contrastive Objective Alignment (COA)

核心 idea: 类比多模态对齐(如 CLIP 将图像和文本映射到同一空间),将 WM 和 Policy 的表征映射到一个 shared latent space 进行 joint training。

具体方案(经过实验迭代后的最终版本): Disentangled Partial Alignment

encwm(ot)[zwmshared,zwmprivate]\text{enc}_{\text{wm}}(o_t) \to [z^{\text{shared}}_{\text{wm}}, z^{\text{private}}_{\text{wm}}]

encπ(ot)[zπshared,zπprivate]\text{enc}_\pi(o_t) \to [z^{\text{shared}}_\pi, z^{\text{private}}_\pi]

对齐 loss 仅作用于 shared subspace:

Lalign=zwmsharedzwmsharedzπsharedzπshared2\mathcal{L}_{\text{align}} = \left\|\frac{z^{\text{shared}}_{\text{wm}}}{\|z^{\text{shared}}_{\text{wm}}\|} - \frac{z^{\text{shared}}_\pi}{\|z^{\text{shared}}_\pi\|}\right\|^2

总损失为:

L=Ldynamics+LrewardWM pathway+Lvalue+LpolicyPolicy pathway+λLalign\mathcal{L} = \underbrace{\mathcal{L}_{\text{dynamics}} + \mathcal{L}_{\text{reward}}}_{\text{WM pathway}} + \underbrace{\mathcal{L}_{\text{value}} + \mathcal{L}_{\text{policy}}}_{\text{Policy pathway}} + \lambda \cdot \mathcal{L}_{\text{align}}

设计动机:

  • Dual encoder:WM 和 Policy 各自拥有独立编码器,objective mismatch 体现在两个编码器学到不同的表征
  • Disentangled:每个编码器输出分为 shared(对齐)和 private(自由)两部分,防止对齐约束过强锁住 policy 优化
  • Partial alignment:只对齐 shared subspace,允许 private subspace 保留各自任务特有信息

四、实验验证

4.1 实验环境

  • SimpleEnv:自定义 4 维状态空间,其中维度 0、1 与 reward 相关,维度 2、3 为干扰项(distractor),天然存在 objective mismatch
  • 状态转移:st+1(0)=0.8st(0)+0.5at+ϵs^{(0)}_{t+1} = 0.8 s^{(0)}_t + 0.5 a_t + \epsilonst+1(2)=sin(st(2)+0.5)+ϵs^{(2)}_{t+1} = \sin(s^{(2)}_t + 0.5) + \epsilon'
  • 奖励:rt=(st+1(0))2(st+1(1))2+1.0r_t = -(s^{(0)}_{t+1})^2 - (s^{(1)}_{t+1})^2 + 1.0(仅依赖维度 0、1)
  • Horizon = 5 步

4.2 迭代过程与关键发现

实验共进行 7 轮迭代,逐步修正方案:

轮次 方案 结果 关键发现
R1 Shared encoder + COA 稳定但不学习 InfoNCE 过强
R2 多 seed 验证 (5 seeds) COA 完全锁住 policy Shared encoder 下 COA 退化
R3 Lambda sweep (7 values) 任何 λ>0\lambda > 0 都锁住 问题不在 λ\lambda 大小
R4 Dual encoder + COA 消除 diverge 但锁住 InfoNCE 在 dual encoder 下仍过强
R5 软对齐 (soft_cos / mse_norm / annealing) 全空间对齐均锁住;annealing 证实因果 问题在于对齐整个表征空间
R6 Disentangled partial alignment 首次同时稳定且学习 突破:只对齐 shared subspace
R7 扩展到 2000eps + ratio sweep 验证通过 最终方案确定

4.3 最终实验结果

实验配置: 2000 episodes, 3 random seeds, target networks (Polyak τ=0.005\tau=0.005)

方法 Ep200 Ep1000 Ep1500 Ep2000 稳定性
SharedEnc (Dreamer-style) 3.91 6.2×1014-6.2 \times 10^{14} 2.8×1015-2.8 \times 10^{15} 2.8×1015-2.8 \times 10^{15} 灾难
DualEnc (无对齐) -6.21 4.9×1010-4.9 \times 10^{10} 3.6×1012-3.6 \times 10^{12} 4.7×1012-4.7 \times 10^{12} 灾难
Partial (s=8, p=24) 3.37 -5.04 -273 1.2×1015-1.2 \times 10^{15} 最终 diverge
Partial (s=16, p=16, λ\lambda=0.2) 3.17 3.27 3.39 3.41 ± 0.09 稳定
Partial (s=24, p=8, λ\lambda=0.1) 3.15 3.20 3.22 3.24 ± 0.05 最稳定
Partial (λ\lambda=0.05) 3.24 3.42 -22.25 -22.05 后期 diverge

核心结论:

  1. Objective mismatch 导致灾难性训练崩溃:所有无对齐的 baseline 均 diverge 到极端负值(101210^{12}101510^{15} 量级)
  2. Disentangled Partial Alignment 有效解决该问题:Partial (s=16, p=16, λ\lambda=0.2) 在 2000 episodes 内持续改善(3.17→3.41)且完全稳定(std=0.09)
  3. Shared/Private 比例存在 trade-off:更多 shared dim → 更稳定但学习更慢;更多 private dim → 学习更快但可能 diverge

4.4 方法演进逻辑

Shared Encoder COA (失败:COA退化)
    ↓ 发现需要独立编码器
Dual Encoder + InfoNCE (失败:锁住policy)
    ↓ 发现对齐过强
Dual Encoder + 软对齐 (失败:全空间对齐仍过强)
    ↓ 发现不应对齐全部表征
Dual Encoder + Disentangled Partial Alignment (成功)
    ↓ 只对齐shared subspace,保留private自由度

五、下周计划

  1. 扩展验证:将 COA 方法集成到 DreamerV3 框架中,在 DMControl 标准 benchmark 上测试
  2. LLM Agent 场景:在 TextWorld/ALFWorld 上验证,其中 LLM 的 next-token prediction 作为 WM
  3. 理论分析:推导 partial alignment 对 policy performance bound 的影响
  4. 论文写作准备:整理相关工作,确定投稿目标

六、参考文献

  1. Lambert, N., Amos, B., Yadan, O., & Calandra, R. (2020). Objective mismatch in model-based reinforcement learning. arXiv:2002.04523.
  2. Voelcker, C., Liao, V., Garg, A., & Farahmand, A. (2023). Value gradient weighted model-based reinforcement learning. ICLR 2023.
  3. Schrittwieser, J., et al. (2020). Mastering Atari, Go, Chess and Shogi by planning with a learned model. Nature.
  4. Hafner, D., et al. (2023). Mastering diverse domains through world models. arXiv:2301.04104.
  5. Hansen, N., Wang, X., & Su, H. (2022). Temporal difference learning for model-based planning. ICML 2022.
  6. Grimm, C., Barreto, A., Singh, S., & Silver, D. (2020). The value equivalence principle for model-based reinforcement learning. NeurIPS 2020.
  7. Zhang, G., et al. (2026). The landscape of agentic reinforcement learning for LLMs: A survey. TMLR.
  8. Wang, R., & Ammanabrolu, P. (2025). A practitioner’s guide to multi-turn agentic reinforcement learning. Under Review.
  9. Pignatelli, E., et al. (2024). A survey of temporal credit assignment in deep reinforcement learning. TMLR.
  10. Wei, T., et al. (2026). Agentic reasoning for large language models. Survey.