Skip to content

第6章:Actor-Critic——两条路线的融合

第 4 章走了路线一(Value-Based):学 Q(s,a)Q(s,a),选分数最高的。打分准确,但不擅长探索,且只能处理离散动作。第 5 章走了路线二(Policy-Based):直接优化 J(θ)J(\theta)。擅长探索、支持连续动作,但方差太大——同一策略跑两次,梯度估计可能天差地别。

上一章末尾我们发现了一个关键线索:减掉基线可以降低方差,而最好的基线就是 V(s)V(s)。但 V(s)V(s) 本身也需要学习——需要一个专门的网络来估计它。这个网络就是 Critic

本章将把两条路线拼在一起:用路线一的方法训练一个 Critic 来评估动作好坏,用路线二的方法训练一个 Actor 来选动作。这就是 Actor-Critic 架构

前置知识回顾

本章是前面所有章节的综合运用:

本章结构

小节核心问题
优势函数优势函数是什么?为什么它比 GtG_t 更好?
Critic 训练方法怎么训练 Critic 来估计 V(s)V(s)?DP/MC/TD 的具体实现
Actor-Critic 架构Actor 和 Critic 怎么协作?TD Error 如何替代 GtG_t
项目:AlphaGo 简易复现Actor-Critic + MCTS 能做什么?

让我们从优势函数开始——它是连接 Actor 和 Critic 的桥梁。优势函数与 Critic 训练

Built for reusable bilingual course delivery