Skip to content

第 3 章总结:强化学习理论基础

内容概述

本章围绕强化学习中的序列决策建模、回报定义、价值函数、贝尔曼方程、价值估计、策略优化和奖励设计展开。作为章末总结,本节汇总第 3.1 到 3.8 节的核心公式,并给出它们在本章理论结构中的位置。

本章的主要结论可以概括为八点:

  1. 强化学习问题可以用 MDP 五元组形式化描述。
  2. 智能体优化的是折扣累积回报,而不是单步即时奖励。
  3. 状态价值函数和动作价值函数分别评估状态与动作的长期回报。
  4. 贝尔曼方程给出了价值函数的递归结构。
  5. DP、MC、TD 是三类基本的价值估计方法。
  6. 参数化策略可以通过策略目标函数直接优化。
  7. 算法根据数据来源分为 On-policy/Off-policy 和 Online/Offline。
  8. 奖励函数决定学习问题本身,奖励设计会影响算法最终行为。

这些内容构成后续 DQN、策略梯度、Actor-Critic、PPO 以及大模型强化学习方法的共同理论基础。

核心公式索引(3.1-3.8)

下面集中列出第 3.1 到 3.8 节的核心公式。每条公式都标注名称、作用和对应讲解位置。

3.1 两台老虎机:RL 的最小问题

E[Ra]=pa(+1)+(1pa)(1)=2pa1(单臂期望奖励;作用:比较单个动作的平均收益;详见 3.1)\mathbb{E}[R_a] = p_a \cdot (+1) + (1-p_a)\cdot(-1) = 2p_a - 1 \quad \text{(单臂期望奖励;作用:比较单个动作的平均收益;详见 3.1)}

E[RT]=t=1TE[Rat](T 轮期望总回报;作用:衡量一整套策略的累计表现;详见 3.1)\mathbb{E}[R_T] = \sum_{t=1}^{T} \mathbb{E}[R_{a_t}] \quad \text{(T 轮期望总回报;作用:衡量一整套策略的累计表现;详见 3.1)}

Regret(T)=Tμt=1Tμat,μ=maxaμa(Regret;作用:衡量探索相对最优策略损失了多少;详见 3.1)\mathrm{Regret}(T) = T\mu^* - \sum_{t=1}^{T}\mu_{a_t}, \qquad \mu^*=\max_a \mu_a \quad \text{(Regret;作用:衡量探索相对最优策略损失了多少;详见 3.1)}

3.2 MDP:RL 的形式化框架

M=S,A,P,R,γ(MDP 五元组;作用:描述序列决策问题的完整规则;详见 3.2)\mathcal{M} = \langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle \quad \text{(MDP 五元组;作用:描述序列决策问题的完整规则;详见 3.2)}

P(ss,a),R(s,a),γ[0,1](转移、奖励与折扣;作用:描述状态转移、即时奖励与未来奖励权重;详见 3.2)P(s' \mid s,a), \qquad R(s,a), \qquad \gamma \in [0,1] \quad \text{(转移、奖励与折扣;作用:描述状态转移、即时奖励与未来奖励权重;详见 3.2)}

Gt=k=0γkrt+k=rt+γGt+1(折扣累积回报;作用:定义从时刻 t 开始的长期优化目标;详见 3.2)G_t = \sum_{k=0}^{\infty}\gamma^k r_{t+k} = r_t + \gamma G_{t+1} \quad \text{(折扣累积回报;作用:定义从时刻 t 开始的长期优化目标;详见 3.2)}

a=π(s),π(as)=P(as)(确定性策略与随机性策略;作用:描述智能体如何选动作;详见 3.2)a = \pi(s), \qquad \pi(a\mid s)=P(a\mid s) \quad \text{(确定性策略与随机性策略;作用:描述智能体如何选动作;详见 3.2)}

3.3 V(s) 与贝尔曼方程

Vπ(s)=Eπ[k=0γkrt+kst=s](状态价值函数;作用:评估一个状态的长期平均回报;详见 3.3)V^\pi(s)=\mathbb{E}_\pi\left[\sum_{k=0}^{\infty}\gamma^k r_{t+k}\mid s_t=s\right] \quad \text{(状态价值函数;作用:评估一个状态的长期平均回报;详见 3.3)}

Vπ(s)=aAπ(as)[R(s,a)+γsSP(ss,a)Vπ(s)](贝尔曼期望方程;作用:在固定策略下递归计算价值;详见 3.3)V^\pi(s)=\sum_{a\in\mathcal{A}}\pi(a\mid s)\left[R(s,a)+\gamma\sum_{s'\in\mathcal{S}}P(s'\mid s,a)V^\pi(s')\right] \quad \text{(贝尔曼期望方程;作用:在固定策略下递归计算价值;详见 3.3)}

V(s)=maxa[R(s,a)+γsSP(ss,a)V(s)](贝尔曼最优方程;作用:定义最优状态价值;详见 3.3)V^*(s)=\max_a\left[R(s,a)+\gamma\sum_{s'\in\mathcal{S}}P(s'\mid s,a)V^*(s')\right] \quad \text{(贝尔曼最优方程;作用:定义最优状态价值;详见 3.3)}

Target=r+γV(s),δ=TargetV(s)(Bellman Target 与 TD Error 雏形;作用:将贝尔曼递推转化为采样学习信号;详见 3.3)\text{Target}=r+\gamma V(s'), \qquad \delta=\text{Target}-V(s) \quad \text{(Bellman Target 与 TD Error 雏形;作用:将贝尔曼递推转化为采样学习信号;详见 3.3)}

3.4 DP、MC、TD

V(s)aπ(as)[R(s,a)+γsP(ss,a)V(s)](DP 策略评估更新;作用:已知模型时迭代价值;详见 3.4)V(s) \leftarrow \sum_a \pi(a\mid s)\left[R(s,a)+\gamma\sum_{s'}P(s'\mid s,a)V(s')\right] \quad \text{(DP 策略评估更新;作用:已知模型时迭代价值;详见 3.4)}

π(s)=argmaxa[R(s,a)+γsP(ss,a)Vπ(s)](策略改进;作用:用当前价值构造更好的贪心策略;详见 3.4)\pi'(s)=\arg\max_a\left[R(s,a)+\gamma\sum_{s'}P(s'\mid s,a)V^\pi(s')\right] \quad \text{(策略改进;作用:用当前价值构造更好的贪心策略;详见 3.4)}

V(s)V(s)+α[GtV(s)](MC 价值更新;作用:用完整回报修正价值估计;详见 3.4)V(s) \leftarrow V(s)+\alpha\left[G_t-V(s)\right] \quad \text{(MC 价值更新;作用:用完整回报修正价值估计;详见 3.4)}

V(s)V(s)+α[r+γV(s)V(s)](TD(0) 价值更新;作用:走一步就用自举目标更新价值;详见 3.4)V(s) \leftarrow V(s)+\alpha\left[r+\gamma V(s')-V(s)\right] \quad \text{(TD(0) 价值更新;作用:走一步就用自举目标更新价值;详见 3.4)}

δ=r+γV(s)V(s)(TD Error;作用:衡量当前价值估计违反贝尔曼关系的程度;详见 3.4)\delta = r+\gamma V(s')-V(s) \quad \text{(TD Error;作用:衡量当前价值估计违反贝尔曼关系的程度;详见 3.4)}

3.5 动作价值函数 Q(s,a)Q(s,a)

Qπ(s,a)=Eπ[Gtst=s,at=a](动作价值函数;作用:评估在状态 s 先做动作 a 的长期回报;详见 3.5)Q^\pi(s,a)=\mathbb{E}_\pi\left[G_t\mid s_t=s,a_t=a\right] \quad \text{(动作价值函数;作用:评估在状态 s 先做动作 a 的长期回报;详见 3.5)}

Vπ(s)=aπ(as)Qπ(s,a)(V-Q 关系式;作用:用动作价值的策略加权平均得到状态价值;详见 3.5)V^\pi(s)=\sum_a\pi(a\mid s)Q^\pi(s,a) \quad \text{(V-Q 关系式;作用:用动作价值的策略加权平均得到状态价值;详见 3.5)}

Qπ(s,a)=R(s,a)+γsSP(ss,a)aAπ(as)Qπ(s,a)(Q 的贝尔曼期望方程;作用:固定策略下递归计算动作价值;详见 3.5)Q^\pi(s,a)=R(s,a)+\gamma\sum_{s'\in\mathcal{S}}P(s'\mid s,a)\sum_{a'\in\mathcal{A}}\pi(a'\mid s')Q^\pi(s',a') \quad \text{(Q 的贝尔曼期望方程;作用:固定策略下递归计算动作价值;详见 3.5)}

Q(s,a)=R(s,a)+γsSP(ss,a)maxaQ(s,a)(Q 的贝尔曼最优方程;作用:递归定义最优动作价值;详见 3.5)Q^*(s,a)=R(s,a)+\gamma\sum_{s'\in\mathcal{S}}P(s'\mid s,a)\max_{a'}Q^*(s',a') \quad \text{(Q 的贝尔曼最优方程;作用:递归定义最优动作价值;详见 3.5)}

π(s)=argmaxaQ(s,a)(贪心最优策略;作用:由最优动作价值诱导最优策略;详见 3.5)\pi^*(s)=\arg\max_a Q^*(s,a) \quad \text{(贪心最优策略;作用:由最优动作价值诱导最优策略;详见 3.5)}

3.6 策略目标 J(θ)J(\theta)

πθ(as)=Pθ(as)(参数化随机策略;作用:用参数 theta 表示动作分布;详见 3.6)\pi_\theta(a\mid s)=P_\theta(a\mid s) \quad \text{(参数化随机策略;作用:用参数 theta 表示动作分布;详见 3.6)}

J(θ)=Eπθ[Gt]=Eπθ[t=0γtrt](策略目标函数;作用:衡量参数化策略的平均长期回报;详见 3.6)J(\theta)=\mathbb{E}_{\pi_\theta}\left[G_t\right] =\mathbb{E}_{\pi_\theta}\left[\sum_{t=0}^{\infty}\gamma^t r_t\right] \quad \text{(策略目标函数;作用:衡量参数化策略的平均长期回报;详见 3.6)}

θ=argmaxθJ(θ)(最优策略参数;作用:将策略学习表述为最大化问题;详见 3.6)\theta^*=\arg\max_\theta J(\theta) \quad \text{(最优策略参数;作用:将策略学习表述为最大化问题;详见 3.6)}

θJ(θ)Eπθ[θlogπθ(as)Gt](策略梯度估计式;作用:提高高回报动作的概率;详见 3.6)\nabla_\theta J(\theta)\propto \mathbb{E}_{\pi_\theta}\left[\nabla_\theta\log\pi_\theta(a\mid s)\cdot G_t\right] \quad \text{(策略梯度估计式;作用:提高高回报动作的概率;详见 3.6)}

3.8 Reward Shaping

R(s,a)={+1达到目标0其他1失败(稀疏奖励函数;作用:只在成败时给学习信号;详见 3.8)R(s,a)= \begin{cases} +1 & \text{达到目标}\\ 0 & \text{其他}\\ -1 & \text{失败} \end{cases} \quad \text{(稀疏奖励函数;作用:只在成败时给学习信号;详见 3.8)}

Rshaping(s,a,s)=(dist(s,goal)dist(s,goal))(距离奖励塑形;作用:根据到目标距离的变化提供中间奖励;详见 3.8)R_{\text{shaping}}(s,a,s')=-\left(\text{dist}(s',\text{goal})-\text{dist}(s,\text{goal})\right) \quad \text{(距离奖励塑形;作用:根据到目标距离的变化提供中间奖励;详见 3.8)}

F(s,a,s)=γΦ(s)Φ(s)(势函数奖励塑形;作用:增强中间信号且不改变最优策略;详见 3.8)F(s,a,s')=\gamma\Phi(s')-\Phi(s) \quad \text{(势函数奖励塑形;作用:增强中间信号且不改变最优策略;详见 3.8)}

rtintrinsic=f(st,at)st+12(预测误差内在奖励;作用:鼓励探索模型还预测不准的状态;详见 3.8)r_t^{\text{intrinsic}}=\left\|f(s_t,a_t)-s_{t+1}\right\|^2 \quad \text{(预测误差内在奖励;作用:鼓励探索模型还预测不准的状态;详见 3.8)}

rtRND=ϕ^(st)ϕ(st)2(RND 内在奖励;作用:用随机网络蒸馏衡量状态新颖性;详见 3.8)r_t^{\text{RND}}=\left\|\hat{\phi}(s_t)-\phi(s_t)\right\|^2 \quad \text{(RND 内在奖励;作用:用随机网络蒸馏衡量状态新颖性;详见 3.8)}

rttotal=rtextrinsic+βrtintrinsic(总奖励组合式;作用:合并任务奖励和探索奖励;详见 3.8)r_t^{\text{total}}=r_t^{\text{extrinsic}}+\beta r_t^{\text{intrinsic}} \quad \text{(总奖励组合式;作用:合并任务奖励和探索奖励;详见 3.8)}

标量形式与矩阵形式对照

本章公式均采用逐状态(标量)形式。将所有状态排成向量、转移关系写成矩阵后,nn 个标量方程可压缩为一行矩阵方程。

符号约定

| 符号 | 维度 | 含义 | | -------------------- | ------------ | ---------------------------------------------------------------------- | --------- | ----------------------------------------- | | vπ\boldsymbol{v}_\pi | n×1n \times 1 | 所有状态的价值 | | rπ\boldsymbol{r}_\pi | n×1n \times 1 | 每个状态的期望即时奖励 | | PπP_\pi | n×nn \times n | 策略诱导的转移矩阵,Pπ[i,j]=aπ(asi)p(sjsi,a)P_\pi[i,j]=\sum_a \pi(a\mid s_i)p(s_j\mid s_i,a) | | qπ\boldsymbol{q}_\pi | nA×1n | \mathcal{A} | \times 1 | 所有 (s,a)(s,a) 对的 Q 值 | | PP | nA×nn | \mathcal{A} | \times n | 转移矩阵,P[(s,a),s]=P(ss,a)P[(s,a),s']=P(s'\mid s,a) | | Ππ\Pi_\pi | n×nAn \times n | \mathcal{A} | | 策略矩阵,Ππ[s,(s,a)]=π(as)\Pi_\pi[s,(s,a)]=\pi(a\mid s) |

对照总表

概念逐状态形式(本章正文)矩阵形式
贝尔曼期望方程Vπ(s)=aπ(as)[R(s,a)+γsP(ss,a)Vπ(s)]V^\pi(s)=\sum_a\pi(a\mid s)\left[R(s,a)+\gamma\sum_{s'}P(s'\mid s,a)V^\pi(s')\right]$\boldsymbol{v}\pi = \boldsymbol{r}\pi + \gamma P_\pi \boldsymbol{v}_\pi$
贝尔曼最优方程$V^(s)=\max_a\left[R(s,a)+\gamma\sum_{s'}P(s'\mid s,a)V^(s')\right]$v=r+γPv\boldsymbol{v}_* = \boldsymbol{r}_* + \gamma P_* \boldsymbol{v}_*(逐行取 max)
闭式解v=(IγP)1r\boldsymbol{v} = (I - \gamma P)^{-1}\boldsymbol{r}
V-Q 关系Vπ(s)=aπ(as)Qπ(s,a)V^\pi(s)=\sum_a\pi(a\mid s)Q^\pi(s,a)$\boldsymbol{v}\pi = \Pi\pi \boldsymbol{q}_\pi$
Q 贝尔曼期望Qπ(s,a)=R(s,a)+γsP(ss,a)aπ(as)Qπ(s,a)Q^\pi(s,a)=R(s,a)+\gamma\sum_{s'}P(s'\mid s,a)\sum_{a'}\pi(a'\mid s')Q^\pi(s',a')$\boldsymbol{q}\pi = \boldsymbol{r} + \gamma P \Pi\pi \boldsymbol{q}_\pi$
Q 贝尔曼最优$Q^(s,a)=R(s,a)+\gamma\sum_{s'}P(s'\mid s,a)\max_{a'}Q^(s',a')$$\boldsymbol{q}* = \boldsymbol{r} + \gamma P \cdot\mathrm{rowmax}(\boldsymbol{q}*)$
DP 策略评估V(s)aπ(as)[R(s,a)+γsP(ss,a)V(s)]V(s) \leftarrow \sum_a\pi(a\mid s)[R(s,a)+\gamma\sum_{s'}P(s'\mid s,a)V(s')]$\boldsymbol{v}{k+1} = \boldsymbol{r}\pi + \gamma P_\pi \boldsymbol{v}_k$

MC 和 TD 基于采样更新单个状态,没有对应的矩阵形式。

从 Q 的矩阵形式推出 V 的矩阵形式

vπ=Ππqπ\boldsymbol{v}_\pi = \Pi_\pi \boldsymbol{q}_\pi 代入 qπ=r+γPvπ\boldsymbol{q}_\pi = \boldsymbol{r} + \gamma P \boldsymbol{v}_\pi,两边左乘 Ππ\Pi_\pi

Ππqπ=Ππr+γΠπPvπvπ=Ππrrπ+γΠπPPπvπ\Pi_\pi \boldsymbol{q}_\pi = \Pi_\pi \boldsymbol{r} + \gamma \Pi_\pi P \boldsymbol{v}_\pi \quad\Longrightarrow\quad \boldsymbol{v}_\pi = \underbrace{\Pi_\pi \boldsymbol{r}}_{\boldsymbol{r}_\pi} + \gamma \underbrace{\Pi_\pi P}_{P_\pi} \boldsymbol{v}_\pi

Q 的矩阵形式保留了动作维度(策略平均由 Ππ\Pi_\pi 单独完成),V 的矩阵形式已把策略平均融进了 rπ\boldsymbol{r}_\piPπP_\pi——这正是"QQVV 携带更细粒度信息"的矩阵语言表达。

公式之间的依赖关系

本章各公式并非相互独立,而是构成一组逐层递进的定义和推论。

层级核心问题关键对象
问题建模环境、动作、反馈和未来权重是什么?M=S,A,P,R,γ\mathcal{M}=\langle\mathcal{S},\mathcal{A},P,R,\gamma\rangle
优化目标如何度量一条轨迹从某时刻开始的长期回报?Gt=k=0γkrt+kG_t=\sum_{k=0}^{\infty}\gamma^k r_{t+k}
行为规则智能体在状态中如何选择动作?π(s)\pi(s)π(as)\pi(a\mid s)πθ(as)\pi_\theta(a\mid s)
状态评估当前状态在长期意义下值多少?Vπ(s)=Eπ[Gtst=s]V^\pi(s)=\mathbb{E}_\pi[G_t\mid s_t=s]
递归结构长期回报如何拆成一步奖励和未来价值?贝尔曼期望方程、贝尔曼最优方程
数据学习在环境模型未知或难以完全枚举时如何估计价值?DP、MC、TD、δ\delta
动作评估固定第一步动作后如何评估长期回报?Qπ(s,a)Q^\pi(s,a)Q(s,a)Q^*(s,a)
策略优化如何直接优化一个参数化策略?J(θ)J(\theta)θJ(θ)\nabla_\theta J(\theta)
目标设计算法所最大化的奖励信号是什么?R(s,a)R(s,a)F(s,a,s)F(s,a,s')rttotalr_t^{\text{total}}

上述层级体现了本章的逻辑顺序:环境定义先于回报定义,回报定义先于价值定义;价值递推是 DP、MC、TD 的基础;状态价值和动作价值为策略改进提供依据;奖励信号则决定所有优化目标的具体含义。

本章的主线推导

1. 从回报到贝尔曼递推

第 3 章最重要的数学结构是递归性。折扣回报可写为无限求和:

Gt=k=0γkrt+kG_t=\sum_{k=0}^{\infty}\gamma^k r_{t+k}

该表达式也可等价写成一步递推形式:

Gt=rt+γGt+1G_t=r_t+\gamma G_{t+1}

该递推形式将长期回报分解为当前即时奖励与下一时刻回报。贝尔曼方程正是将这一轨迹层面的递推关系推广到期望价值 Vπ(s)V^\pi(s)

2. 从状态价值到采样学习

若环境模型 PPRR 已知,可以直接使用贝尔曼期望方程进行 DP 更新。若模型未知,则需要基于采样轨迹进行价值估计:

  • MC 使用完整回报 GtG_t 作为目标,估计无偏但方差高。
  • TD 使用 r+γV(s)r+\gamma V(s') 作为自举目标,方差低且可以在线更新。
  • TD Error δ=r+γV(s)V(s)\delta=r+\gamma V(s')-V(s) 衡量当前价值估计与一步贝尔曼目标之间的差距。

这一思想构成后续 Critic、DQN target、GAE 等技术的基础。

3. 从状态价值到动作价值

Vπ(s)V^\pi(s) 评估状态价值,但不直接给出状态 ss 下各动作的相对优劣。为刻画动作层面的长期回报,第 3.5 节引入动作价值:

Qπ(s,a)=Eπ[Gtst=s,at=a]Q^\pi(s,a)=\mathbb{E}_\pi[G_t\mid s_t=s,a_t=a]

该定义固定第一步动作,并评估随后按照策略 π\pi 行动所得的长期回报。因此,QQ 函数比 VV 函数包含更直接的动作选择信息。当最优动作价值 Q(s,a)Q^*(s,a) 已知时,最优策略可由 argmaxaQ(s,a)\arg\max_a Q^*(s,a) 诱导得到。

4. 从策略表示到策略优化

第 3.6 节给出另一种策略学习表述:不必先显式学习每个动作的价值,也可以将策略表示为带参数的分布 πθ(as)\pi_\theta(a\mid s),并最大化:

J(θ)=Eπθ[Gt]J(\theta)=\mathbb{E}_{\pi_\theta}[G_t]

策略梯度公式表明,参数更新方向由两部分组成:θlogπθ(as)\nabla_\theta\log\pi_\theta(a\mid s) 描述提高当前动作概率的参数方向,GtG_t 则为该方向提供回报权重。第 5 章将对这一结果作进一步推导。

5. 奖励函数决定优化问题本身

所有价值函数、策略目标和更新规则最终都依赖于奖励的累积和。奖励过于稀疏会导致学习信号不足;奖励设计不当则可能使智能体优化偏离任务意图。第 3.8 节讨论的奖励塑形与内在奖励,均用于在增强学习信号的同时尽量保持任务目标不变。

本章复习问题

完成本章学习后,应能够回答以下问题:

  1. 给定一个任务,如何写出它的 MDP 五元组?
参考答案

将任务表示为 M=S,A,P,R,γ\mathcal{M}=\langle\mathcal{S},\mathcal{A},P,R,\gamma\rangle。其中,S\mathcal{S} 描述智能体可能处于的状态集合,A\mathcal{A} 描述可选动作集合,P(ss,a)P(s'\mid s,a) 描述执行动作后的状态转移规律,R(s,a)R(s,a)R(s,a,s)R(s,a,s') 描述即时奖励,γ\gamma 描述未来奖励的折扣权重。写 MDP 时,应说明每个要素在具体任务中的含义,而不仅是列出符号。

  1. 为什么 RL 优化的是折扣累积回报,而不只是即时奖励?
参考答案

强化学习研究的是序列决策。某一步动作不仅影响当前奖励,也会改变后续状态,从而影响未来可获得的奖励。因此,优化即时奖励可能导致短视策略。折扣累积回报

Gt=k=0γkrt+kG_t=\sum_{k=0}^{\infty}\gamma^k r_{t+k}

将当前及未来奖励统一为一个长期目标,并通过 γ\gamma 控制未来奖励的重要程度。在无限期任务中,γ<1\gamma<1 还可保证回报有限。

  1. GtG_tVπ(s)V^\pi(s)Qπ(s,a)Q^\pi(s,a)J(θ)J(\theta) 分别在评估什么?
参考答案

GtG_t 是从时刻 tt 开始沿某一条具体轨迹得到的折扣累积回报。Vπ(s)V^\pi(s) 是从状态 ss 出发并按照策略 π\pi 行动时,GtG_t 的期望,用于评估状态价值。Qπ(s,a)Q^\pi(s,a) 是在状态 ss 先执行动作 aa,之后按照策略 π\pi 行动时,GtG_t 的期望,用于评估动作价值。J(θ)J(\theta) 是参数化策略 πθ\pi_\theta 的总体期望回报,用于衡量并优化整个策略。

  1. 贝尔曼期望方程和贝尔曼最优方程有什么区别?
参考答案

贝尔曼期望方程用于评估给定策略 π\pi,其动作选择由 π(as)\pi(a\mid s) 加权平均:

Vπ(s)=aπ(as)[R(s,a)+γsP(ss,a)Vπ(s)].V^\pi(s)=\sum_a\pi(a\mid s)\left[R(s,a)+\gamma\sum_{s'}P(s'\mid s,a)V^\pi(s')\right].

贝尔曼最优方程用于定义最优价值,它不再固定某个策略,而是在所有动作中取最大值:

V(s)=maxa[R(s,a)+γsP(ss,a)V(s)].V^*(s)=\max_a\left[R(s,a)+\gamma\sum_{s'}P(s'\mid s,a)V^*(s')\right].

前者回答“按照该策略行动时价值是多少”,后者回答“在最优行动下价值最高是多少”。

  1. DP、MC、TD 分别需要什么信息,什么时候更新,误差来源是什么?
参考答案

DP 需要已知环境模型 PPRR,通过对所有可能动作和下一状态求期望进行更新,误差主要来自迭代尚未收敛或函数近似误差。MC 不需要环境模型,但需要等一条 episode 结束后用完整回报 GtG_t 更新;它以真实回报为目标,估计无偏,但方差较高。TD 不需要环境模型,也不必等 episode 结束,走一步即可用 r+γV(s)r+\gamma V(s') 更新;它方差较低,但由于使用估计值 V(s)V(s') 自举,会引入偏差。

  1. TD Error 为什么会成为后续 Critic、DQN 和 GAE 的共同学习信号?
参考答案

TD Error

δ=r+γV(s)V(s)\delta=r+\gamma V(s')-V(s)

衡量当前价值估计与一步贝尔曼目标之间的差距。Critic 可以用它更新状态价值函数;DQN 使用同样的自举思想构造 Q 函数的训练目标;GAE 则将多个时间步的 TD Error 加权累积,用于估计优势函数。因此,TD Error 是将贝尔曼递推转化为可采样训练信号的基本形式。

  1. 为什么 Q(s,a)Q(s,a) 能直接诱导动作选择?
参考答案

Q(s,a)Q(s,a) 表示在状态 ss 选择动作 aa 后的长期期望回报。若已知各动作的动作价值,则可直接比较同一状态下不同动作的 QQ 值。最优动作价值 Q(s,a)Q^*(s,a) 已知时,最优策略可写为

π(s)=argmaxaQ(s,a).\pi^*(s)=\arg\max_a Q^*(s,a).

因此,QQ 函数不仅评估动作,还可通过最大化动作价值直接给出动作选择规则。

  1. 为什么参数化策略需要目标函数 J(θ)J(\theta)
参考答案

参数化策略 πθ(as)\pi_\theta(a\mid s) 的学习对象是参数 θ\theta。为了优化这些参数,需要定义一个以 θ\theta 为自变量的目标函数:

J(θ)=Eπθ[Gt].J(\theta)=\mathbb{E}_{\pi_\theta}[G_t].

J(θ)J(\theta) 衡量当前策略的期望长期回报。策略梯度方法通过估计 θJ(θ)\nabla_\theta J(\theta) 来调整参数,使高回报轨迹中的动作概率增大,从而改进策略。

  1. 奖励塑形为什么可能加速学习,又为什么可能带来目标偏移?
参考答案

奖励塑形通过增加中间奖励,使智能体在尚未到达最终目标前也能获得学习信号,因此可缓解稀疏奖励导致的学习困难。例如,距离目标更近时给予额外奖励,可以引导探索方向。但若塑形奖励设计不当,智能体可能优化塑形信号而非原始任务目标,产生目标偏移。势函数塑形

F(s,a,s)=γΦ(s)Φ(s)F(s,a,s')=\gamma\Phi(s')-\Phi(s)

在理论上可保持最优策略不变,因此是一类较安全的奖励塑形形式。

上述问题强调公式背后的概念角色。掌握本章内容的关键,不仅在于记忆公式形式,还在于理解每个对象在强化学习问题中的功能。

后续章节如何使用本章公式

后续章节主要使用的本章对象用法
第 4 章 Q-Learning 与 DQNQ(s,a)Q(s,a)Q(s,a)Q^*(s,a)argmaxaQ(s,a)\arg\max_a Q(s,a)、TD Target学习动作价值,用自举目标更新 Q 函数
第 5 章策略梯度πθ(as)\pi_\theta(a\mid s)J(θ)J(\theta)θJ(θ)\nabla_\theta J(\theta)GtG_t直接优化参数化策略,提高高回报动作概率
第 6 章 Actor-CriticV(s)V(s)、TD Error、J(θ)J(\theta)用价值函数作为 Critic,为策略更新提供低方差信号
第 7 章 PPOV(s)V(s)、优势函数、TD Error、策略目标用 Critic 估计优势,并约束策略更新幅度
第 8 章以后大模型 RL策略、奖励、回报、目标函数把 token 生成看作序列决策,把偏好或验证信号转成优化目标

因此,第 3 章中的公式不仅用于本章练习,也将在后续算法中反复出现。随着模型从表格表示过渡到函数近似,这些对象将以神经网络、损失函数、训练目标、优势函数和 KL 约束等形式重新出现。

小结

第 3 章建立了强化学习理论基础的基本结构:

  1. 用 MDP 五元组定义序列决策问题。
  2. 用折扣累积回报 GtG_t 定义长期优化目标。
  3. Vπ(s)V^\pi(s)Qπ(s,a)Q^\pi(s,a) 评估状态与动作。
  4. 用贝尔曼方程揭示价值的递归结构。
  5. 用 DP、MC、TD 说明价值可以如何被计算或估计。
  6. J(θ)J(\theta) 将参数化策略学习表述为优化问题。
  7. 用奖励设计说明优化目标从何而来,以及为什么目标定义本身会影响学习结果。
  8. 掌握从数据获取维度区分算法(On/Off-policy, Online/Offline)。

下一章将从 Q(s,a)Q(s,a) 出发,进入第一个完整算法族:第 4 章:Q-Learning 到 DQN

Built for reusable bilingual course delivery