研究周报 · 2026.03.15–03.21 · Agentic RL 综述与 WM/Policy 对齐

姓名： 李晟昊
日期： 2026 年 3 月 21 日
指导老师： 冯磊
研究方向： Agentic Reinforcement Learning / Model-Based RL

一、本周工作概览

本周主要完成以下三部分工作：

文献阅读：精读 4 篇 Agentic RL 领域的综述与实验论文，建立领域知识框架
研究问题提出：聚焦 World Model 与 Policy 的 Objective Mismatch 问题，提出基于 Contrastive Alignment 的解决思路
实验验证：通过 7 轮迭代实验，从 idea 到可验证方案，初步验证了 Disentangled Partial Alignment 方法的有效性

二、文献阅读

2.1 论文列表

序号	论文	发表	类型
1	Zhang et al., The Landscape of Agentic Reinforcement Learning for LLMs: A Survey	TMLR 2026	综述 (95pp)
2	Wang & Ammanabrolu, A Practitioner’s Guide to Multi-turn Agentic Reinforcement Learning	Under Review 2025	实验 (20pp)
3	Pignatelli et al., A Survey of Temporal Credit Assignment in Deep Reinforcement Learning	TMLR 2024	综述 (56pp)
4	Wei et al., Agentic Reasoning for Large Language Models	Survey 2026	综述 (135pp)

2.2 核心概念梳理

Agentic RL 的范式转变： 传统 LLM RL（如 RLHF）本质上是一个退化的单步 MDP，而 Agentic RL 将 LLM 视为嵌入动态环境中的多步决策者，建模为 POMDP：

\langle \mathcal{S}, \mathcal{O}, \mathcal{A}, P, R, \gamma \rangle

其中 agent 只能观察到部分状态 $o_t = O(s_t)$ ，动作空间包含文本生成和环境交互两个子空间 $\mathcal{A} = \mathcal{A}_{\text{text}} \cup \mathcal{A}_{\text{action}}$ 。优化目标为：

J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_{t=0}^{T-1} \gamma^t R(s_t, a_t)\right]

Temporal Credit Assignment 问题（Pignatelli et al.）： 在多步决策中，如何将最终奖励归因到各步动作，是 Agentic RL 区别于传统 LLM RL 的核心难题。该综述提出了统一的赋值函数形式化：

K: \mathcal{C} \times \mathcal{A} \times \mathcal{G} \to \mathcal{Y}

并将挑战归纳为三个 MDP 维度：Depth（延迟效应）、Density（稀疏奖励）、Breadth（credit 稀释）。

2.3 论文对比分析

维度	Zhang 2026	Wang 2025	Pignatelli 2024	Wei 2026
核心视角	RL 赋能 Agent 能力	多轮 RL 实践 recipe	CA 数学本质	Reasoning 组织行为
形式化	PBRFT MDP vs POMDP	POMDP 三支柱	Assignment function	POMDP + reasoning trace
关键发现	RL 是静态→自适应的关键	PPO >> GRPO（多轮）	Depth/Density/Breadth	In-context vs Post-training 互补
核心瓶颈	Temporal CA	Reward density	Delayed effects	World modeling

2.4 启发

RL 算法选择：在多轮 agentic 任务中，PPO 显著优于 GRPO（Wang 2025 实验：w4-o6-q8 任务上 PPO 72% vs GRPO 36%）
World Model 是开放问题：Wei et al. 在 Section 8.3 明确指出 “An open problem is how to jointly train, update, and evaluate world models in non-stationary environments”
Objective Mismatch：Zhang et al. 引用 Pignatelli 的 temporal credit assignment 工作，指出这是 long-horizon tool-integrated reasoning 的核心瓶颈

三、研究问题与思路

3.1 问题定义

在 Model-Based RL 中，World Model（WM）和 Policy 存在 Objective Mismatch（Lambert et al., 2020）：

WM 训练目标：最小化预测误差（next-state/token prediction）

\mathcal{L}_{\text{model}} = \mathbb{E}\left[\|f_\theta(s_t, a_t) - s_{t+1}\|^2\right]

Policy 训练目标：最大化期望回报

J(\pi) = \mathbb{E}_\pi\left[\sum_t \gamma^t r_t\right]

WM 在状态空间中均匀追求预测精度，但 Policy 只关心对决策有影响的状态区域。这导致 WM 可能在 policy 不会访问的区域浪费拟合能力，同时在关键决策边界上精度不足。

3.2 已有方法

方法	核心思路	局限
VaGraM (Voelcker 2023)	用 value gradient 加权 model loss	单向对齐
MuZero (2020)	纯 value/policy/reward loss 训练 model	依赖 MCTS
TD-MPC (Hansen 2022)	Latent consistency + TD + reward	未显式对齐
DreamerV3 (Hafner 2023)	Shared latent + stop-gradient	隐式对齐，仍有 reconstruction
Value Equivalence (Grimm 2020)	Model 只需 value-equivalent	理论框架

3.3 我的研究思路：Contrastive Objective Alignment (COA)

核心 idea： 类比多模态对齐（如 CLIP 将图像和文本映射到同一空间），将 WM 和 Policy 的表征映射到一个 shared latent space 进行 joint training。

具体方案（经过实验迭代后的最终版本）： Disentangled Partial Alignment

\text{enc}_{\text{wm}}(o_t) \to [z^{\text{shared}}_{\text{wm}}, z^{\text{private}}_{\text{wm}}]

\text{enc}_\pi(o_t) \to [z^{\text{shared}}_\pi, z^{\text{private}}_\pi]

对齐 loss 仅作用于 shared subspace：

\mathcal{L}_{\text{align}} = \left\|\frac{z^{\text{shared}}_{\text{wm}}}{\|z^{\text{shared}}_{\text{wm}}\|} - \frac{z^{\text{shared}}_\pi}{\|z^{\text{shared}}_\pi\|}\right\|^2

总损失为：

\mathcal{L} = \underbrace{\mathcal{L}_{\text{dynamics}} + \mathcal{L}_{\text{reward}}}_{\text{WM pathway}} + \underbrace{\mathcal{L}_{\text{value}} + \mathcal{L}_{\text{policy}}}_{\text{Policy pathway}} + \lambda \cdot \mathcal{L}_{\text{align}}

设计动机：

Dual encoder：WM 和 Policy 各自拥有独立编码器，objective mismatch 体现在两个编码器学到不同的表征
Disentangled：每个编码器输出分为 shared（对齐）和 private（自由）两部分，防止对齐约束过强锁住 policy 优化
Partial alignment：只对齐 shared subspace，允许 private subspace 保留各自任务特有信息

四、实验验证

4.1 实验环境

SimpleEnv：自定义 4 维状态空间，其中维度 0、1 与 reward 相关，维度 2、3 为干扰项（distractor），天然存在 objective mismatch
状态转移： $s^{(0)}_{t+1} = 0.8 s^{(0)}_t + 0.5 a_t + \epsilon$ ， $s^{(2)}_{t+1} = \sin(s^{(2)}_t + 0.5) + \epsilon'$
奖励： $r_t = -(s^{(0)}_{t+1})^2 - (s^{(1)}_{t+1})^2 + 1.0$ （仅依赖维度 0、1）
Horizon = 5 步

4.2 迭代过程与关键发现

实验共进行 7 轮迭代，逐步修正方案：

轮次	方案	结果	关键发现
R1	Shared encoder + COA	稳定但不学习	InfoNCE 过强
R2	多 seed 验证 (5 seeds)	COA 完全锁住 policy	Shared encoder 下 COA 退化
R3	Lambda sweep (7 values)	任何 $\lambda > 0$ 都锁住	问题不在 $\lambda$ 大小
R4	Dual encoder + COA	消除 diverge 但锁住	InfoNCE 在 dual encoder 下仍过强
R5	软对齐 (soft_cos / mse_norm / annealing)	全空间对齐均锁住；annealing 证实因果	问题在于对齐整个表征空间
R6	Disentangled partial alignment	首次同时稳定且学习	突破：只对齐 shared subspace
R7	扩展到 2000eps + ratio sweep	验证通过	最终方案确定

4.3 最终实验结果

实验配置： 2000 episodes, 3 random seeds, target networks (Polyak $\tau=0.005$ )

方法	Ep200	Ep1000	Ep1500	Ep2000	稳定性
SharedEnc (Dreamer-style)	3.91	$-6.2 \times 10^{14}$	$-2.8 \times 10^{15}$	$-2.8 \times 10^{15}$	灾难
DualEnc (无对齐)	-6.21	$-4.9 \times 10^{10}$	$-3.6 \times 10^{12}$	$-4.7 \times 10^{12}$	灾难
Partial (s=8, p=24)	3.37	-5.04	-273	$-1.2 \times 10^{15}$	最终 diverge
Partial (s=16, p=16, $\lambda$ =0.2)	3.17	3.27	3.39	3.41 ± 0.09	稳定
Partial (s=24, p=8, $\lambda$ =0.1)	3.15	3.20	3.22	3.24 ± 0.05	最稳定
Partial ( $\lambda$ =0.05)	3.24	3.42	-22.25	-22.05	后期 diverge

核心结论：

Objective mismatch 导致灾难性训练崩溃：所有无对齐的 baseline 均 diverge 到极端负值（ $10^{12}$ – $10^{15}$ 量级）
Disentangled Partial Alignment 有效解决该问题：Partial (s=16, p=16, $\lambda$ =0.2) 在 2000 episodes 内持续改善（3.17→3.41）且完全稳定（std=0.09）
Shared/Private 比例存在 trade-off：更多 shared dim → 更稳定但学习更慢；更多 private dim → 学习更快但可能 diverge

4.4 方法演进逻辑

Shared Encoder COA (失败：COA退化)
    ↓ 发现需要独立编码器
Dual Encoder + InfoNCE (失败：锁住policy)
    ↓ 发现对齐过强
Dual Encoder + 软对齐 (失败：全空间对齐仍过强)
    ↓ 发现不应对齐全部表征
Dual Encoder + Disentangled Partial Alignment (成功)
    ↓ 只对齐shared subspace，保留private自由度

五、下周计划

扩展验证：将 COA 方法集成到 DreamerV3 框架中，在 DMControl 标准 benchmark 上测试
LLM Agent 场景：在 TextWorld/ALFWorld 上验证，其中 LLM 的 next-token prediction 作为 WM
理论分析：推导 partial alignment 对 policy performance bound 的影响
论文写作准备：整理相关工作，确定投稿目标

六、参考文献

Lambert, N., Amos, B., Yadan, O., & Calandra, R. (2020). Objective mismatch in model-based reinforcement learning. arXiv:2002.04523.
Voelcker, C., Liao, V., Garg, A., & Farahmand, A. (2023). Value gradient weighted model-based reinforcement learning. ICLR 2023.
Schrittwieser, J., et al. (2020). Mastering Atari, Go, Chess and Shogi by planning with a learned model. Nature.
Hafner, D., et al. (2023). Mastering diverse domains through world models. arXiv:2301.04104.
Hansen, N., Wang, X., & Su, H. (2022). Temporal difference learning for model-based planning. ICML 2022.
Grimm, C., Barreto, A., Singh, S., & Silver, D. (2020). The value equivalence principle for model-based reinforcement learning. NeurIPS 2020.
Zhang, G., et al. (2026). The landscape of agentic reinforcement learning for LLMs: A survey. TMLR.
Wang, R., & Ammanabrolu, P. (2025). A practitioner’s guide to multi-turn agentic reinforcement learning. Under Review.
Pignatelli, E., et al. (2024). A survey of temporal credit assignment in deep reinforcement learning. TMLR.
Wei, T., et al. (2026). Agentic reasoning for large language models. Survey.