这篇笔记整理单智能体 RL、多智能体 RL、reward-free 表征学习,以及 LLM-based Agentic RL 中常见 baseline,主要用于后续实验设计和论文对比时快速查表。
1. 单智能体 RL 基础算法
┌─────────┬─────────────────┬──────────────────────────────────────────────────┐
│ 算法 │ 类别 │ 核心思想 │
├─────────┼─────────────────┼──────────────────────────────────────────────────┤
│ DQN │ Value-based │ 深度 Q 网络 + Experience Replay + Target Network │
├─────────┼─────────────────┼──────────────────────────────────────────────────┤
│ PPO │ Policy Gradient │ Clipped surrogate objective,稳定策略优化 │
├─────────┼─────────────────┼──────────────────────────────────────────────────┤
│ SAC │ Actor-Critic │ 最大熵 RL,自动温度调节 │
├─────────┼─────────────────┼──────────────────────────────────────────────────┤
│ TD3 │ Actor-Critic │ Twin critics + delayed policy update,减少过估计 │
├─────────┼─────────────────┼──────────────────────────────────────────────────┤
│ A2C/A3C │ Actor-Critic │ 异步/同步 advantage actor-critic │
├─────────┼─────────────────┼──────────────────────────────────────────────────┤
│ DDPG │ Actor-Critic │ 连续动作空间的 off-policy 方法 │
└─────────┴─────────────────┴──────────────────────────────────────────────────┘
2. 多智能体 RL (MARL) 经典 Baselines
2.1 集中训练分散执行 (CTDE)
┌────────┬───────────────────────────────────────────┬──────────────────────────┐
│ 算法 │ 核心思想 │ 适用场景 │
├────────┼───────────────────────────────────────────┼──────────────────────────┤
│ QMIX │ 单调混合网络分解联合 Q 值 │ 合作任务(StarCraft 等) │
├────────┼───────────────────────────────────────────┼──────────────────────────┤
│ VDN │ 简单加法分解 Q_tot = ΣQ_i │ 合作任务 │
├────────┼───────────────────────────────────────────┼──────────────────────────┤
│ MAPPO │ 多智能体 PPO + 集中 critic │ 通用合作/竞争 │
├────────┼───────────────────────────────────────────┼──────────────────────────┤
│ MADDPG │ 每个 agent 一个 actor-critic,集中 critic │ 混合合作竞争 │
├────────┼───────────────────────────────────────────┼──────────────────────────┤
│ COMA │ Counterfactual baseline 解决信用分配 │ 合作任务 │
├────────┼───────────────────────────────────────────┼──────────────────────────┤
│ QTRAN │ 线性约束分解,更一般化的值分解 │ 非单调 Q 值任务 │
└────────┴───────────────────────────────────────────┴──────────────────────────┘
2.2 通信机制
┌─────────┬────────────────────────────┐
│ 算法 │ 核心思想 │
├─────────┼────────────────────────────┤
│ CommNet │ 连续通信通道,均值聚合 │
├─────────┼────────────────────────────┤
│ TarMAC │ Attention-based 选择性通信 │
├─────────┼────────────────────────────┤
│ IC3Net │ 门控通信,学习何时通信 │
├─────────┼────────────────────────────┤
│ DIAL │ 通过梯度反向传播学通信协议 │
└─────────┴────────────────────────────┘
2.3 对手/队友建模
┌──────────────────────┬───────────────────────────────────────────┐
│ 算法 │ 核心思想 │
├──────────────────────┼───────────────────────────────────────────┤
│ LOLA │ Learning with Opponent-Learning Awareness │
├──────────────────────┼───────────────────────────────────────────┤
│ ToM (Theory of Mind) │ 显式建模对手信念和意图 │
├──────────────────────┼───────────────────────────────────────────┤
│ RIAL / DIAL │ 可微通信 + 智能体间信号 │
└──────────────────────┴───────────────────────────────────────────┘
3. Reward-Free Baselines
┌──────────────────────┬────────────────────┬────────────────────────────┐
│ 方法 │ 你的实现 │ 核心思想 │
├──────────────────────┼────────────────────┼────────────────────────────┤
│ Autoencoder │ AEPretrainer │ 重构观测,无监督特征 │
├──────────────────────┼────────────────────┼────────────────────────────┤
│ Masked AE │ MaskedAEPretrainer │ 随机遮蔽 + 重构 (类 MAE) │
├──────────────────────┼────────────────────┼────────────────────────────┤
│ CPC │ CPCPretrainer │ 对比预测编码,预测未来表征 │
├──────────────────────┼────────────────────┼────────────────────────────┤
│ Next-Step Prediction │ NextStepPretrainer │ 前向动态模型 │
├──────────────────────┼────────────────────┼────────────────────────────┤
│ TIMAR │ TIMARPretrainer │ 队友信息建模 │
├──────────────────────┼────────────────────┼────────────────────────────┤
│ MaskMA │ MaskMAPretrainer │ 掩码多智能体建模 │
└──────────────────────┴────────────────────┴────────────────────────────┘
其他重要的表征学习 baseline:
┌──────────────┬──────────────────────────────────────────────────────────┐
│ 方法 │ 核心思想 │
├──────────────┼──────────────────────────────────────────────────────────┤
│ CURL │ 对比学习 + 数据增强用于 RL 表征 │
├──────────────┼──────────────────────────────────────────────────────────┤
│ DrQ / DrQ-v2 │ 图像增强的 data-efficient RL │
├──────────────┼──────────────────────────────────────────────────────────┤
│ SPR │ Self-Predictive Representations │
├──────────────┼──────────────────────────────────────────────────────────┤
│ Proto-RL │ Prototypical representations for reward-free exploration │
├──────────────┼──────────────────────────────────────────────────────────┤
│ ATC │ Augmented Temporal Contrast │
├──────────────┼──────────────────────────────────────────────────────────┤
│ BYOL-Explore │ Bootstrap your own latent + 探索 │
└──────────────┴──────────────────────────────────────────────────────────┘
4. Agentic RL(LLM-based Agent)新方向
如果 “Agentic RL” 指的是 LLM 驱动的智能体,还有这些 baselines:
┌───────────────────┬───────────────────────────────────────────────┐
│ 方法 │ 核心思想 │
├───────────────────┼───────────────────────────────────────────────┤
│ ReAct │ Reasoning + Acting 交替,思维链驱动工具调用 │
├───────────────────┼───────────────────────────────────────────────┤
│ Reflexion │ 自我反思 + episodic memory 改进决策 │
├───────────────────┼───────────────────────────────────────────────┤
│ Voyager │ LLM agent + 技能库 + 自动课程(Minecraft) │
├───────────────────┼───────────────────────────────────────────────┤
│ DEPS │ Describe, Explain, Plan, Select │
├───────────────────┼───────────────────────────────────────────────┤
│ SayCan │ LLM 提供语义知识 + affordance grounding │
├───────────────────┼───────────────────────────────────────────────┤
│ Inner Monologue │ 内部对话反馈闭环 │
├───────────────────┼───────────────────────────────────────────────┤
│ AutoGPT / BabyAGI │ 自主任务分解 + 执行循环 │
├───────────────────┼───────────────────────────────────────────────┤
│ RLHF / DPO │ 从人类偏好中学习对齐策略 │
├───────────────────┼───────────────────────────────────────────────┤
│ GRPO │ Group Relative Policy Optimization (DeepSeek) │
└───────────────────┴───────────────────────────────────────────────┘