第6章:Actor-Critic——两条路线的融合
第 4 章走了路线一(Value-Based):学 ,选分数最高的(回顾:Q(s,a) 与贪心策略)。打分准确,但不擅长探索,且只能处理离散动作。第 5 章走了路线二(Policy-Based):直接优化 (回顾:策略目标函数)。擅长探索、支持连续动作,但方差太大——同一策略跑两次,梯度估计可能天差地别。
上一章末尾我们发现了一个关键线索:减掉基线可以降低方差(回顾:策略梯度的改进),而最好的基线就是 (回顾:状态价值函数)。但 本身也需要学习——需要一个专门的网络来估计它。这个网络就是 Critic。
本章将把两条路线拼在一起:用路线一的方法训练一个 Critic 来评估动作好坏,用路线二的方法训练一个 Actor 来选动作。这就是 Actor-Critic 架构。
前置知识回顾
本章是前面所有章节的综合运用,以下概念会在本章频繁出现:
- 状态价值 与贝尔曼方程——Critic 的理论基础: 衡量"从状态 出发,平均能拿多少分"
- 动作价值 —— 与 的差值就是优势函数
- DP/MC/TD 三种价值估计方法——训练 Critic 的三种策略
- TD Error ——Critic 的核心训练信号
- 策略目标 与策略梯度——Actor 的优化目标
- REINFORCE 与基线——为什么需要 作为基线
本章结构
| 小节 | 核心问题 |
|---|---|
| 优势函数 | 优势函数 是什么?为什么它比 更好? |
| Critic 训练 | 怎么训练 Critic 来估计 ?DP/MC/TD 的具体实现 |
| Actor-Critic 架构 | Actor 和 Critic 怎么协作?TD Error 如何替代 ? |
| Actor-Critic 的前沿大规模应用 | AlphaStar、SAC 机器人、Isaac Lab——AC 架构在工业级的落地 |
| 动手:Pendulum 摆杆平衡 | Actor-Critic 如何处理连续动作空间? |
| 动手:BipedalWalker 双足行走 | Actor-Critic 能学会复杂的连续控制吗? |
让我们从优势函数开始——它是连接 Actor 和 Critic 的桥梁。优势函数