Skip to content

5.2 策略梯度定理与 REINFORCE

上一节我们亲手跑通了赌博机实验,看到策略网络从"随机乱选"进化到"坚定地选 B"。核心代码只有一行:loss = -log_prob * reward

但这就留下了一个更深层的问题:为什么这个简单的公式能做到这件事?log_prob 乘以 reward,为什么就能让网络"偏爱好的动作"?这件事不是显然的——至少不像"算出每个动作的 Q 值然后取最大"那么直觉。

这一节我们就来拆解它。你会看到,这一行代码背后藏着一个优雅的数学定理——策略梯度定理。它是整个 Policy-Based RL 的理论基石,也是后续 PPO、GRPO 等大模型对齐算法的数学起点。

第一块积木:目标函数——"策略有多好"

在讲怎么优化之前,先要回答一个更基本的问题:什么是"好的策略"?

在第 3 章的 MDP 框架中,我们说过价值函数 Vπ(s)V^\pi(s) 衡量的是"从状态 ss 出发,遵循策略 π\pi,期望能拿多少分"。现在我们把视角从"单个状态"拉到"整个策略"——不问"从某个状态出发好不好",而是问"这个策略整体上有多好"。答案很自然:在所有可能的起点上,策略 πθ\pi_\theta 期望能累积的折扣总奖励。

J(θ)=Eπθ[t=0γtrt]J(\theta) = \mathbb{E}_{\pi_\theta} \left[ \sum_{t=0}^{\infty} \gamma^t r_t \right]

先认识一下公式里的"角色":

符号角色大白话
θ\theta策略参数神经网络的权重——调它们就改变策略的行为
πθ\pi_\theta策略函数给定状态,输出每个动作的概率分布
J(θ)J(\theta)目标函数策略的"成绩单"——参数为 θ\theta 的策略平均能拿多少分
$\mathbb{E}{\pi\theta}$期望按策略 πθ\pi_\theta 行动很多很多次,取平均
γtrt\gamma^t r_t折扣奖励tt 步的奖励,越远未来的奖励越"不值钱"

J(θ)J(\theta) 就是我们的北极星——目标很简单:找到让 J(θ)J(\theta) 最大的参数 θ\theta。整个策略梯度方法就是在回答"怎么找到这个 θ\theta"。

第二块积木:怎么优化?——梯度上升

怎么让 J(θ)J(\theta) 变大?深度学习里最经典的招数:沿着梯度方向走。

θθ+αθJ(θ)\theta \leftarrow \theta + \alpha \, \nabla_\theta J(\theta)

符号角色大白话
θJ(θ)\nabla_\theta J(\theta)梯度"参数往哪个方向调,能让策略的成绩提升最多"
α\alpha学习率"每一步走多大"——太大就震荡,太小就磨叽
++梯度上升注意是加号不是减号——我们要最大化,不是最小化

但问题来了:θJ(θ)\nabla_\theta J(\theta) 怎么算?

目标函数 J(θ)J(\theta) 里面有一个期望 E\mathbb{E}——理论上它要求你把所有可能的轨迹都跑一遍然后取平均。但在任何现实场景中,可能的轨迹数量都是天文数字,你不可能全部跑遍。这就好比你想知道全校学生的平均身高——你不可能量遍每一个人,但你可以随机抽 100 个人来估计。

第三块积木:策略梯度定理——把不可能变成可能

这就是策略梯度定理出场的地方。1992 年,Ronald Williams 在他的 REINFORCE 论文中证明了一件不可思议的事:那个看似无法计算的梯度 θJ(θ)\nabla_\theta J(\theta),可以被转化为一个可以用采样来估计的形式 [1]。后来 Sutton 等人在 2000 年进一步推广和系统化了这一结果 [2]

θJ(θ)=Eπθ[tθlogπθ(atst)Gt]\nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot G_t \right]

别被这个公式的长度吓到,让我们逐项认识它:

符号角色大白话
θ\nabla_\theta求梯度"参数该往哪调"
logπθ(atst)\log \pi_\theta(a_t | s_t)对数概率在状态 sts_t 下,策略选择动作 ata_t 的对数概率
θlogπθ(atst)\nabla_\theta \log \pi_\theta(a_t | s_t)对数概率的梯度"参数怎么调能改变这个动作被选中的概率"
GtG_t累积回报从时刻 tt 到结束的总奖励——"做了这个动作后最终拿了多少分"
外层 E\mathbb{E}期望"跑很多次取平均"——用采样来近似

翻译成一句话:如果一个动作导致了好的结果(GtG_t 大),就增加再做这个动作的概率;如果导致了坏的结果(GtG_t 小),就降低它的概率。

这和你上一节在赌博机里看到的现象完全一致——选 B 经常赢(GtG_t 大),所以选 B 的概率逐渐上升;选 A 偶尔赢,但不够多,概率就上不去。策略梯度定理只是把这个直觉用精确的数学语言表达了出来。

为什么是 log\log 而不是直接用概率?

你可能觉得奇怪:为什么不直接写成 θπθ(atst)Gt\nabla_\theta \pi_\theta(a_t|s_t) \cdot G_t,非要多一个 log\log

这是一个非常聪明的数学技巧,叫做对数导数技巧(Log-Derivative Trick)。根据链式法则:

θlogπ=θππ\nabla_\theta \log \pi = \frac{\nabla_\theta \pi}{\pi}

这个"除以 π\pi"的操作恰好抵消了期望计算中隐含的 π\pi 因子,让整个公式变得干净且可计算。从工程角度看,概率 π\pi(0,1)(0, 1) 之间,直接对概率求梯度可能产生极小的数值,影响训练稳定性。log\log(0,1)(0, 1) 映射到 (,0)(-\infty, 0),梯度数值更稳定、更好用。

数学推导:从目标函数到策略梯度定理

目标函数的梯度需要对轨迹的概率分布求导:

θJ(θ)=θτP(τ;θ)trt(τ)\nabla_\theta J(\theta) = \nabla_\theta \sum_{\tau} P(\tau; \theta) \sum_t r_t(\tau)

其中 τ=(s0,a0,s1,a1,)\tau = (s_0, a_0, s_1, a_1, \ldots) 是一条轨迹,P(τ;θ)P(\tau; \theta) 是策略产生轨迹 τ\tau 的概率。梯度只能作用于 P(τ;θ)P(\tau; \theta)(奖励不依赖参数):

θJ(θ)=τθP(τ;θ)trt(τ)\nabla_\theta J(\theta) = \sum_{\tau} \nabla_\theta P(\tau; \theta) \sum_t r_t(\tau)

关键一步:利用恒等式 θP=PθlogP\nabla_\theta P = P \cdot \nabla_\theta \log P(两边除以 PP 再乘以 PP):

θJ(θ)=τP(τ;θ)(θlogP(τ;θ))trt(τ)\nabla_\theta J(\theta) = \sum_{\tau} P(\tau; \theta) \left( \nabla_\theta \log P(\tau; \theta) \right) \sum_t r_t(\tau)

轨迹概率可以分解为:P(τ;θ)=tπθ(atst)P(st+1st,at)P(\tau; \theta) = \prod_t \pi_\theta(a_t|s_t) \cdot P(s_{t+1}|s_t, a_t)。取对数后对 θ\theta 求梯度,环境转移概率 P(ss,a)P(s'|s,a) 不依赖于 θ\theta,所以只剩策略部分:

θlogP(τ;θ)=tθlogπθ(atst)\nabla_\theta \log P(\tau; \theta) = \sum_t \nabla_\theta \log \pi_\theta(a_t|s_t)

代回期望中,就得到了策略梯度定理。这个过程最妙的地方在于:环境动力学(状态转移概率)在求导时被消掉了。这意味着策略梯度不需要知道环境的模型——这是它比动态规划方法灵活得多的根本原因。

REINFORCE:策略梯度定理的直接实现

策略梯度定理告诉了我们梯度的形式。REINFORCE 就是这个定理最朴素的实现——用蒙特卡洛采样来估计期望。算法流程出奇地简单:

  1. 用当前策略 πθ\pi_\theta 跑完一个完整的 episode,记录每一步的状态、动作和奖励
  2. 对每一步,计算从那一步到 episode 结束的累积回报 Gt=k=tTγktrkG_t = \sum_{k=t}^{T} \gamma^{k-t} r_k
  3. 用采样来估计梯度:θJtθlogπθ(atst)Gt\nabla_\theta J \approx \sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot G_t
  4. 沿梯度方向更新参数:θθ+αθJ\theta \leftarrow \theta + \alpha \nabla_\theta J

在 PyTorch 中,这可以写成一行:

python
loss = -log_prob * G_t  # 负号因为 PyTorch 默认做梯度下降(最小化),而我们要梯度上升(最大化)

回头看上一节赌博机的代码,loss = -log_prob * reward 就是 REINFORCE 在单步情况下的特例(Gt=rtG_t = r_t,因为赌博机只有一步,没有后续)。

python
# REINFORCE 核心(多步版本)
for t in range(len(rewards)):
    G_t = sum(gamma ** k * rewards[t + k] for k in range(len(rewards) - t))
    loss += -log_probs[t] * G_t

optimizer.zero_grad()
loss.backward()
optimizer.step()

REINFORCE 的致命缺陷

REINFORCE 看起来简洁优雅,但它有一个几乎让它"不可用"的问题——方差太大

为什么?因为 GtG_t 是从时刻 tt 到 episode 结束的累积回报——它包含了这段路径上的所有随机性。同一个动作,不同的采样轨迹可能给出截然不同的 GtG_t

情况实际发生了什么GtG_t
好运气后续每步都恰好拿了高分很大
坏运气后续每步都恰好拿了低分很小

问题在于,策略梯度用 GtG_t 来判断"这个动作好不好"——但 GtG_t 的波动意味着,同一个好的动作可能因为运气差而被惩罚,同一个差的动作可能因为运气好而被奖励。这就像用一次考试的成绩来判断一个学生的水平——考砸了不代表学得差,可能只是那天状态不好。

在上一节的赌博机实验中你已经看到了这种现象的具象化——训练曲线不是平滑上升的,而是充满了锯齿和波动。把学习率调大(比如从 0.01 改到 0.1),策略会在 A 和 B 之间剧烈摇摆,永远无法稳定。这就是高方差的直接后果。

离散 vs 连续:同一套理论的两个舞台

本章实验用的是离散动作空间(选 A 或选 B),但策略梯度定理对连续动作空间同样成立。这个区别不只是理论细节——它决定了策略网络的"输出头"怎么设计:

离散动作空间连续动作空间
例子CartPole 左/右、LLM 选词机器人关节角度、方向盘转角
输出层Softmax(每个动作的概率)高斯分布参数(均值 μ\mu 和标准差 σ\sigma
采样方式按 Softmax 概率随机选N(μ,σ2)\mathcal{N}(\mu, \sigma^2) 采样
logπ\log \pi 的计算log_softmax高斯分布的对数密度公式

这个区别很关键——同一个 PPO 算法,换一个输出层就能从 LLM 对齐(离散 token 选择)切换到机器人控制(连续力矩输出)。这就是策略梯度方法比 Value-Based 方法灵活得多的地方:DQN 的 argmax\arg\max 在连续空间中根本算不出来(你不可能对无限多个连续值逐一比较),而策略梯度直接对概率密度求梯度,天然适用于连续空间。

思考题:REINFORCE 和 Q-Learning 的更新有什么本质区别?

Q-Learning 更新的是价值函数 Q(s,a)Q(s,a)("这个动作值多少分"),策略是通过 argmaxQ\arg\max Q 隐式得到的——先有分数表,再从中挑最好的。REINFORCE 直接更新策略参数 θ\theta,跳过了 Q 值这一步——不问"值多少分",直接学"该做什么"。

这个区别带来了两个关键后果:Q-Learning 是 off-policy 的(可以用旧数据反复训练),REINFORCE 是 on-policy 的(必须用当前策略的新数据);Q-Learning 只能处理离散动作(需要遍历所有动作取 max),REINFORCE 可以处理连续动作(直接对概率密度求梯度)。

思考题:为什么 REINFORCE 要跑完整个 episode 才能更新?

因为 GtG_t 需要从时刻 tt 到 episode 结束的所有奖励。不跑到终点,你就不知道 GtG_t 的完整值。这就像你不知道一部电影好不好看,直到你看完最后一幕——中间退出无法给出公正的评价。

这也暗示了一个优化方向:如果我们能用一个更稳定的估计来替代 GtG_t,就可以不必等到 episode 结束就能更新。这个"更稳定的估计"从哪来?答案是第 3 章学的价值函数——这就是下一节 Actor-Critic 要做的事情。

REINFORCE 能工作,但"高方差"让它几乎不可用。好在策略梯度定理有一个奇妙的性质:你可以在梯度估计中减去一个不依赖于动作的"基线",既不改变梯度的期望方向,又能大幅降低方差。这个发现直接导向了 Actor-Critic 架构。让我们在下一节——Actor-Critic 架构——中看看它是怎么做到的。



  1. Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3-4), 229-256. DOI ↩︎

  2. Sutton, R. S., et al. (1999). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12. ↩︎

Built for reusable bilingual course delivery