E.2.2 从随机轨迹到状态价值
前置知识:E.2.1 概率、条件概率与期望——你需要知道期望的定义。
上一节定义了期望——"按概率加权求平均"。这一节把期望用到强化学习里:从某个状态出发,轨迹是随机的,回报也是随机的,那"这个状态值多少"就是所有可能回报的期望。
从随机轨迹到状态价值
从状态 出发,有三条可能的轨迹:
| 轨迹 | 概率 | 折扣回报 |
|---|---|---|
| A | ||
| B | ||
| C |
策略 下状态 的价值是多少?按期望的定义——每种结果乘以概率再求和:
这个数值就是公式
的具体展开。 的下标 表示"按策略 下的概率加权",竖线 表示"在已知起始状态是 的条件下"。整行读下来就是:从状态 出发,按策略 行动,所有可能回报的加权平均值。
注意 不是某一次轨迹的回报——任何一次实际跑出来的回报可能是 、 或 。 是无数次轨迹的平均结果。这就是"价值"和"回报"的区别:回报是单次的,价值是期望。
折扣因子如何影响价值
上面的例子没有考虑折扣——每条轨迹直接给了一个回报。在真实的 RL 中,回报是带折扣的:
越接近 ,策略越"看重未来"; 越小,策略越"只顾眼前"。用数字感受一下:
假设一条轨迹的即时奖励序列是 。
| 折扣回报 | 含义 | |
|---|---|---|
| 几乎只看前两步 | ||
| 看得比较远 | ||
| 几乎把所有奖励都算上 |
时,第 5 步的奖励对总回报的贡献只有 ,几乎可以忽略; 时,第 5 步的贡献仍有 ,和即时奖励差不多重要。
这直接影响价值函数的数值: 大时,状态价值更高(因为包含了更多未来的奖励),但计算和估计也更困难(因为要考虑更远的未来,不确定性更大)。
方差:衡量不稳定性
两个策略的平均回报可能相同,但训练起来的体验可能完全不同。
策略 A 的三次回报是:
策略 B 的三次回报是:
它们的平均值都是 。但策略 B 的波动明显更大——有时拿到 ,有时拿到 。如果用这些回报来更新策略参数,策略 B 的梯度方向每次都在剧烈摆动,训练会很不稳定。方差就是用来衡量这种波动的。
对策略 B 来说,三个回报和平均值的偏差是 。平方后求平均:
是方差(variance)的缩写。方差的公式是 ——每个值和均值的偏差,平方后取平均。
在强化学习中,高方差意味着学习信号不稳定。策略梯度方法常常需要 baseline、advantage、GAE 等技巧来降低方差——这些技巧的数学基础会在后面几节展开。
方差在训练中到底是什么意思
用策略梯度举例。假设某个状态下"选 right"的梯度更新信号是 ,其中 是优势估计。
低方差的策略 A(优势估计稳定在 附近):每次更新方向基本一致,参数稳步向正确方向移动。
高方差的策略 B(优势估计在 和 之间剧烈波动):第一次更新说"right 很差,把概率往下压",第二次更新说"right 很好,把概率往上提"。参数反复震荡,训练效率极低。
这就是为什么降低方差几乎总是 RL 训练的核心议题之一。后面的 baseline、GAE、PPO 裁剪,本质上都是在回答同一个问题:怎么让梯度更新信号更稳定?
小结
本篇把概率论的基础工具用到了强化学习的核心概念上:
| 概念 | 定义 | RL 角色 |
|---|---|---|
| 状态价值 | 回报的条件期望 | 衡量"从某个状态出发平均能拿多少" |
| 折扣因子 | 控制策略看多远, 越大越重视未来 | |
| 方差 | 衡量回报的波动大小,影响训练稳定性 |
状态价值是回报的条件期望——它把"无数条随机轨迹的回报"压缩成一个代表性数值。折扣因子控制这个压缩"看多远"—— 小则只顾眼前, 大则重视未来但估计更难。方差则告诉我们梯度信号的稳定性:两个策略平均回报相同,但方差大的策略训练起来更不稳定。后面的蒙特卡洛、baseline、GAE 等方法,本质上都是在降低方差的同时尽量保持期望不变。
下一篇:E.2.3 蒙特卡洛、增量平均与重要性采样 —— 不知道转移概率时,用采样平均来逼近期望。