Agentic RL 经典 Baselines 综述

字数 629 预计阅读 2 分钟

梳理单智能体 RL、多智能体 RL、reward-free 表征学习与 LLM-based Agentic RL 中常见 baseline,作为后续实验对照清单。

作者 Yoyo_Lee 发表于

这篇笔记整理单智能体 RL、多智能体 RL、reward-free 表征学习,以及 LLM-based Agentic RL 中常见 baseline,主要用于后续实验设计和论文对比时快速查表。

1. 单智能体 RL 基础算法

┌─────────┬─────────────────┬──────────────────────────────────────────────────┐
│  算法   │      类别       │                     核心思想                     │
├─────────┼─────────────────┼──────────────────────────────────────────────────┤
│ DQN     │ Value-based     │ 深度 Q 网络 + Experience Replay + Target Network │
├─────────┼─────────────────┼──────────────────────────────────────────────────┤
│ PPO     │ Policy Gradient │ Clipped surrogate objective,稳定策略优化        │
├─────────┼─────────────────┼──────────────────────────────────────────────────┤
│ SAC     │ Actor-Critic    │ 最大熵 RL,自动温度调节                          │
├─────────┼─────────────────┼──────────────────────────────────────────────────┤
│ TD3     │ Actor-Critic    │ Twin critics + delayed policy update,减少过估计 │
├─────────┼─────────────────┼──────────────────────────────────────────────────┤
│ A2C/A3C │ Actor-Critic    │ 异步/同步 advantage actor-critic                 │
├─────────┼─────────────────┼──────────────────────────────────────────────────┤
│ DDPG    │ Actor-Critic    │ 连续动作空间的 off-policy 方法                   │
└─────────┴─────────────────┴──────────────────────────────────────────────────┘

2. 多智能体 RL (MARL) 经典 Baselines

2.1 集中训练分散执行 (CTDE)

┌────────┬───────────────────────────────────────────┬──────────────────────────┐
│  算法  │                 核心思想                  │         适用场景         │
├────────┼───────────────────────────────────────────┼──────────────────────────┤
│ QMIX   │ 单调混合网络分解联合 Q 值                 │ 合作任务(StarCraft 等) │
├────────┼───────────────────────────────────────────┼──────────────────────────┤
│ VDN    │ 简单加法分解 Q_tot = ΣQ_i                 │ 合作任务                 │
├────────┼───────────────────────────────────────────┼──────────────────────────┤
│ MAPPO  │ 多智能体 PPO + 集中 critic                │ 通用合作/竞争            │
├────────┼───────────────────────────────────────────┼──────────────────────────┤
│ MADDPG │ 每个 agent 一个 actor-critic,集中 critic │ 混合合作竞争             │
├────────┼───────────────────────────────────────────┼──────────────────────────┤
│ COMA   │ Counterfactual baseline 解决信用分配      │ 合作任务                 │
├────────┼───────────────────────────────────────────┼──────────────────────────┤
│ QTRAN  │ 线性约束分解,更一般化的值分解            │ 非单调 Q 值任务          │
└────────┴───────────────────────────────────────────┴──────────────────────────┘

2.2 通信机制

┌─────────┬────────────────────────────┐
│  算法   │          核心思想          │
├─────────┼────────────────────────────┤
│ CommNet │ 连续通信通道,均值聚合     │
├─────────┼────────────────────────────┤
│ TarMAC  │ Attention-based 选择性通信 │
├─────────┼────────────────────────────┤
│ IC3Net  │ 门控通信,学习何时通信     │
├─────────┼────────────────────────────┤
│ DIAL    │ 通过梯度反向传播学通信协议 │
└─────────┴────────────────────────────┘

2.3 对手/队友建模

┌──────────────────────┬───────────────────────────────────────────┐
│         算法         │                 核心思想                  │
├──────────────────────┼───────────────────────────────────────────┤
│ LOLA                 │ Learning with Opponent-Learning Awareness │
├──────────────────────┼───────────────────────────────────────────┤
│ ToM (Theory of Mind) │ 显式建模对手信念和意图                    │
├──────────────────────┼───────────────────────────────────────────┤
│ RIAL / DIAL          │ 可微通信 + 智能体间信号                   │
└──────────────────────┴───────────────────────────────────────────┘

3. Reward-Free Baselines

┌──────────────────────┬────────────────────┬────────────────────────────┐
│         方法         │      你的实现      │          核心思想          │
├──────────────────────┼────────────────────┼────────────────────────────┤
│ Autoencoder          │ AEPretrainer       │ 重构观测,无监督特征       │
├──────────────────────┼────────────────────┼────────────────────────────┤
│ Masked AE            │ MaskedAEPretrainer │ 随机遮蔽 + 重构 (类 MAE)   │
├──────────────────────┼────────────────────┼────────────────────────────┤
│ CPC                  │ CPCPretrainer      │ 对比预测编码,预测未来表征 │
├──────────────────────┼────────────────────┼────────────────────────────┤
│ Next-Step Prediction │ NextStepPretrainer │ 前向动态模型               │
├──────────────────────┼────────────────────┼────────────────────────────┤
│ TIMAR                │ TIMARPretrainer    │ 队友信息建模               │
├──────────────────────┼────────────────────┼────────────────────────────┤
│ MaskMA               │ MaskMAPretrainer   │ 掩码多智能体建模           │
└──────────────────────┴────────────────────┴────────────────────────────┘

其他重要的表征学习 baseline:

┌──────────────┬──────────────────────────────────────────────────────────┐
│     方法     │                         核心思想                         │
├──────────────┼──────────────────────────────────────────────────────────┤
│ CURL         │ 对比学习 + 数据增强用于 RL 表征                          │
├──────────────┼──────────────────────────────────────────────────────────┤
│ DrQ / DrQ-v2 │ 图像增强的 data-efficient RL                             │
├──────────────┼──────────────────────────────────────────────────────────┤
│ SPR          │ Self-Predictive Representations                          │
├──────────────┼──────────────────────────────────────────────────────────┤
│ Proto-RL     │ Prototypical representations for reward-free exploration │
├──────────────┼──────────────────────────────────────────────────────────┤
│ ATC          │ Augmented Temporal Contrast                              │
├──────────────┼──────────────────────────────────────────────────────────┤
│ BYOL-Explore │ Bootstrap your own latent + 探索                         │
└──────────────┴──────────────────────────────────────────────────────────┘

4. Agentic RL(LLM-based Agent)新方向

如果 “Agentic RL” 指的是 LLM 驱动的智能体,还有这些 baselines:

┌───────────────────┬───────────────────────────────────────────────┐
│       方法        │                   核心思想                    │
├───────────────────┼───────────────────────────────────────────────┤
│ ReAct             │ Reasoning + Acting 交替,思维链驱动工具调用   │
├───────────────────┼───────────────────────────────────────────────┤
│ Reflexion         │ 自我反思 + episodic memory 改进决策           │
├───────────────────┼───────────────────────────────────────────────┤
│ Voyager           │ LLM agent + 技能库 + 自动课程(Minecraft)    │
├───────────────────┼───────────────────────────────────────────────┤
│ DEPS              │ Describe, Explain, Plan, Select               │
├───────────────────┼───────────────────────────────────────────────┤
│ SayCan            │ LLM 提供语义知识 + affordance grounding       │
├───────────────────┼───────────────────────────────────────────────┤
│ Inner Monologue   │ 内部对话反馈闭环                              │
├───────────────────┼───────────────────────────────────────────────┤
│ AutoGPT / BabyAGI │ 自主任务分解 + 执行循环                       │
├───────────────────┼───────────────────────────────────────────────┤
│ RLHF / DPO        │ 从人类偏好中学习对齐策略                      │
├───────────────────┼───────────────────────────────────────────────┤
│ GRPO              │ Group Relative Policy Optimization (DeepSeek) │
└───────────────────┴───────────────────────────────────────────────┘