Skip to content

E.2.2 从随机轨迹到状态价值

前置知识E.2.1 概率、条件概率与期望——你需要知道期望的定义。


上一节定义了期望——"按概率加权求平均"。这一节把期望用到强化学习里:从某个状态出发,轨迹是随机的,回报也是随机的,那"这个状态值多少"就是所有可能回报的期望。

从随机轨迹到状态价值

从状态 ss 出发,有三条可能的轨迹:

轨迹概率折扣回报
A0.50.588
B0.30.344
C0.20.22-2

策略 π\pi 下状态 ss 的价值是多少?按期望的定义——每种结果乘以概率再求和:

vπ(s)=0.5×8+0.3×4+0.2×(2)=4.8.v_\pi(s)=0.5\times8+0.3\times4+0.2\times(-2)=4.8.

这个数值就是公式

vπ(s)=Eπ[GtSt=s]v_\pi(s)=\mathbb{E}_\pi[G_t \mid S_t=s]

的具体展开。Eπ\mathbb{E}_\pi 的下标 π\pi 表示"按策略 π\pi 下的概率加权",竖线 St=s\mid S_t=s 表示"在已知起始状态是 ss 的条件下"。整行读下来就是:从状态 ss 出发,按策略 π\pi 行动,所有可能回报的加权平均值

注意 vπ(s)=4.8v_\pi(s)=4.8 不是某一次轨迹的回报——任何一次实际跑出来的回报可能是 88442-24.84.8 是无数次轨迹的平均结果。这就是"价值"和"回报"的区别:回报是单次的,价值是期望。

折扣因子如何影响价值

上面的例子没有考虑折扣——每条轨迹直接给了一个回报。在真实的 RL 中,回报是带折扣的:

Gt=Rt+1+γRt+2+γ2Rt+3+.G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\cdots.

γ\gamma 越接近 11,策略越"看重未来";γ\gamma 越小,策略越"只顾眼前"。用数字感受一下:

假设一条轨迹的即时奖励序列是 2,1,3,0,12, 1, 3, 0, 1

γ\gamma折扣回报 GG含义
0.50.52+0.5×1+0.25×3+0.125×0+0.0625×1=3.192+0.5\times1+0.25\times3+0.125\times0+0.0625\times1=3.19几乎只看前两步
0.90.92+0.9+0.81×3+0.729×0+0.6561×1=5.972+0.9+0.81\times3+0.729\times0+0.6561\times1=5.97看得比较远
0.990.992+0.99+0.9801×3+6.922+0.99+0.9801\times3+\cdots\approx6.92几乎把所有奖励都算上

γ=0.5\gamma=0.5 时,第 5 步的奖励对总回报的贡献只有 0.06250.0625,几乎可以忽略;γ=0.99\gamma=0.99 时,第 5 步的贡献仍有 0.960.96,和即时奖励差不多重要。

这直接影响价值函数的数值:γ\gamma 大时,状态价值更高(因为包含了更多未来的奖励),但计算和估计也更困难(因为要考虑更远的未来,不确定性更大)。


方差:衡量不稳定性

两个策略的平均回报可能相同,但训练起来的体验可能完全不同。

策略 A 的三次回报是:

4,5,6.4, \quad 5, \quad 6.

策略 B 的三次回报是:

0,5,10.0, \quad 5, \quad 10.

它们的平均值都是 55。但策略 B 的波动明显更大——有时拿到 00,有时拿到 1010。如果用这些回报来更新策略参数,策略 B 的梯度方向每次都在剧烈摆动,训练会很不稳定。方差就是用来衡量这种波动的。

对策略 B 来说,三个回报和平均值的偏差是 5,0,5-5, 0, 5。平方后求平均:

Var(G)=(5)2+02+523=503=16.67.\mathrm{Var}(G)=\frac{(-5)^2+0^2+5^2}{3}=\frac{50}{3}=16.67.

Var\mathrm{Var} 是方差(variance)的缩写。方差的公式是 Var(X)=E[(XE[X])2]\mathrm{Var}(X) = \mathbb{E}[(X-\mathbb{E}[X])^2]——每个值和均值的偏差,平方后取平均。

在强化学习中,高方差意味着学习信号不稳定。策略梯度方法常常需要 baseline、advantage、GAE 等技巧来降低方差——这些技巧的数学基础会在后面几节展开。

方差在训练中到底是什么意思

用策略梯度举例。假设某个状态下"选 right"的梯度更新信号是 A^logπ\hat{A}\cdot\nabla\log\pi,其中 A^\hat{A} 是优势估计。

低方差的策略 A(优势估计稳定在 22 附近):每次更新方向基本一致,参数稳步向正确方向移动。

高方差的策略 B(优势估计在 8-8+12+12 之间剧烈波动):第一次更新说"right 很差,把概率往下压",第二次更新说"right 很好,把概率往上提"。参数反复震荡,训练效率极低。

这就是为什么降低方差几乎总是 RL 训练的核心议题之一。后面的 baseline、GAE、PPO 裁剪,本质上都是在回答同一个问题:怎么让梯度更新信号更稳定?


小结

本篇把概率论的基础工具用到了强化学习的核心概念上:

概念定义RL 角色
状态价值回报的条件期望 vπ(s)=Eπ[GtSt=s]v_\pi(s)=\mathbb{E}_\pi[G_t\mid S_t=s]衡量"从某个状态出发平均能拿多少"
折扣因子Gt=k=0γkRt+k+1G_t=\sum_{k=0}\gamma^k R_{t+k+1}控制策略看多远,γ\gamma 越大越重视未来
方差Var(X)=E[(XE[X])2]\mathrm{Var}(X)=\mathbb{E}[(X-\mathbb{E}[X])^2]衡量回报的波动大小,影响训练稳定性

状态价值是回报的条件期望——它把"无数条随机轨迹的回报"压缩成一个代表性数值。折扣因子控制这个压缩"看多远"——γ\gamma 小则只顾眼前,γ\gamma 大则重视未来但估计更难。方差则告诉我们梯度信号的稳定性:两个策略平均回报相同,但方差大的策略训练起来更不稳定。后面的蒙特卡洛、baseline、GAE 等方法,本质上都是在降低方差的同时尽量保持期望不变。

下一篇E.2.3 蒙特卡洛、增量平均与重要性采样 —— 不知道转移概率时,用采样平均来逼近期望。

Built for reusable bilingual course delivery