E.2.2 从随机轨迹到状态价值

前置知识：E.2.1 概率、条件概率与期望——你需要知道期望的定义。

上一节定义了期望——"按概率加权求平均"。这一节把期望用到强化学习里：从某个状态出发，轨迹是随机的，回报也是随机的，那"这个状态值多少"就是所有可能回报的期望。

从随机轨迹到状态价值

从状态 $s$ 出发，有三条可能的轨迹：

轨迹	概率	折扣回报
A	$0.5$	$8$
B	$0.3$	$4$
C	$0.2$	$-2$

策略 $\pi$ 下状态 $s$ 的价值是多少？按期望的定义——每种结果乘以概率再求和：

$v_\pi(s)=0.5\times8+0.3\times4+0.2\times(-2)=4.8.$

这个数值就是公式

$v_\pi(s)=\mathbb{E}_\pi[G_t \mid S_t=s]$

的具体展开。 $\mathbb{E}_\pi$ 的下标 $\pi$ 表示"按策略 $\pi$ 下的概率加权"，竖线 $\mid S_t=s$ 表示"在已知起始状态是 $s$ 的条件下"。整行读下来就是：从状态 $s$ 出发，按策略 $\pi$ 行动，所有可能回报的加权平均值。

注意 $v_\pi(s)=4.8$ 不是某一次轨迹的回报——任何一次实际跑出来的回报可能是 $8$ 、 $4$ 或 $-2$ 。 $4.8$ 是无数次轨迹的平均结果。这就是"价值"和"回报"的区别：回报是单次的，价值是期望。

折扣因子如何影响价值

上面的例子没有考虑折扣——每条轨迹直接给了一个回报。在真实的 RL 中，回报是带折扣的：

$G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\cdots.$

$\gamma$ 越接近 $1$ ，策略越"看重未来"； $\gamma$ 越小，策略越"只顾眼前"。用数字感受一下：

假设一条轨迹的即时奖励序列是 $2, 1, 3, 0, 1$ 。

$\gamma$	折扣回报 $G$	含义
$0.5$	$2+0.5\times1+0.25\times3+0.125\times0+0.0625\times1=3.19$	几乎只看前两步
$0.9$	$2+0.9+0.81\times3+0.729\times0+0.6561\times1=5.97$	看得比较远
$0.99$	$2+0.99+0.9801\times3+\cdots\approx6.92$	几乎把所有奖励都算上

$\gamma=0.5$ 时，第 5 步的奖励对总回报的贡献只有 $0.0625$ ，几乎可以忽略； $\gamma=0.99$ 时，第 5 步的贡献仍有 $0.96$ ，和即时奖励差不多重要。

这直接影响价值函数的数值： $\gamma$ 大时，状态价值更高（因为包含了更多未来的奖励），但计算和估计也更困难（因为要考虑更远的未来，不确定性更大）。

方差：衡量不稳定性

两个策略的平均回报可能相同，但训练起来的体验可能完全不同。

策略 A 的三次回报是：

$4, \quad 5, \quad 6.$

策略 B 的三次回报是：

$0, \quad 5, \quad 10.$

它们的平均值都是 $5$ 。但策略 B 的波动明显更大——有时拿到 $0$ ，有时拿到 $10$ 。如果用这些回报来更新策略参数，策略 B 的梯度方向每次都在剧烈摆动，训练会很不稳定。方差就是用来衡量这种波动的。

对策略 B 来说，三个回报和平均值的偏差是 $-5, 0, 5$ 。平方后求平均：

$\mathrm{Var}(G)=\frac{(-5)^2+0^2+5^2}{3}=\frac{50}{3}=16.67.$

$\mathrm{Var}$ 是方差（variance）的缩写。方差的公式是 $\mathrm{Var}(X) = \mathbb{E}[(X-\mathbb{E}[X])^2]$ ——每个值和均值的偏差，平方后取平均。

在强化学习中，高方差意味着学习信号不稳定。策略梯度方法常常需要 baseline、advantage、GAE 等技巧来降低方差——这些技巧的数学基础会在后面几节展开。

方差在训练中到底是什么意思

用策略梯度举例。假设某个状态下"选 right"的梯度更新信号是 $\hat{A}\cdot\nabla\log\pi$ ，其中 $\hat{A}$ 是优势估计。

低方差的策略 A（优势估计稳定在 $2$ 附近）：每次更新方向基本一致，参数稳步向正确方向移动。

高方差的策略 B（优势估计在 $-8$ 和 $+12$ 之间剧烈波动）：第一次更新说"right 很差，把概率往下压"，第二次更新说"right 很好，把概率往上提"。参数反复震荡，训练效率极低。

这就是为什么降低方差几乎总是 RL 训练的核心议题之一。后面的 baseline、GAE、PPO 裁剪，本质上都是在回答同一个问题：怎么让梯度更新信号更稳定？

小结

本篇把概率论的基础工具用到了强化学习的核心概念上：

概念	定义	RL 角色
状态价值	回报的条件期望 $v_\pi(s)=\mathbb{E}_\pi[G_t\mid S_t=s]$	衡量"从某个状态出发平均能拿多少"
折扣因子	$G_t=\sum_{k=0}\gamma^k R_{t+k+1}$	控制策略看多远， $\gamma$ 越大越重视未来
方差	$\mathrm{Var}(X)=\mathbb{E}[(X-\mathbb{E}[X])^2]$	衡量回报的波动大小，影响训练稳定性

状态价值是回报的条件期望——它把"无数条随机轨迹的回报"压缩成一个代表性数值。折扣因子控制这个压缩"看多远"—— $\gamma$ 小则只顾眼前， $\gamma$ 大则重视未来但估计更难。方差则告诉我们梯度信号的稳定性：两个策略平均回报相同，但方差大的策略训练起来更不稳定。后面的蒙特卡洛、baseline、GAE 等方法，本质上都是在降低方差的同时尽量保持期望不变。

下一篇：E.2.3 蒙特卡洛、增量平均与重要性采样 —— 不知道转移概率时，用采样平均来逼近期望。

1. CartPole 倒立摆

2. DPO 偏好微调

3. MDP 与价值函数

4. Q-Learning 与 DQN

5. 策略梯度与 REINFORCE

6. Actor-Critic

7. PPO

8. RLHF 全流程

9. 后训练对齐

10. Agentic RL

11. VLM 强化学习

12. 未来趋势

B. RL 工程实践

E. 强化学习的数学基础

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

E.2.2 从随机轨迹到状态价值

从随机轨迹到状态价值

折扣因子如何影响价值

方差：衡量不稳定性

方差在训练中到底是什么意思

小结

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

E.2.2 从随机轨迹到状态价值 ​

从随机轨迹到状态价值 ​

折扣因子如何影响价值 ​

方差：衡量不稳定性 ​

方差在训练中到底是什么意思 ​

小结 ​

E.2.2 从随机轨迹到状态价值

从随机轨迹到状态价值

折扣因子如何影响价值

方差：衡量不稳定性

方差在训练中到底是什么意思

小结