E.2.1 概率基础：概率、条件概率与期望

前置知识：本篇不需要概率论基础，但建议先读完附录导读中的”两状态贯穿例子”。

从”可能发生什么”开始

概率论不从策略开始，而是从一个更基本的问题开始：随机事件长什么样？

样本空间 $\Omega$ 是所有可能结果的集合。例如掷一次骰子：

$\Omega=\{1,2,3,4,5,6\}.$

事件是样本空间的一个子集。例如“掷出偶数”这个事件是：

$A=\{2,4,6\}.$

随机变量是把随机结果映射成数字的函数。例如 $X$ 表示骰子点数，那么 $X(\omega)=\omega$ 。在强化学习中，奖励 $R_{t+1}$ 、回报 $G_t$ 、下一状态 $S_{t+1}$ 都可以看成随机变量。

有了随机变量，我们才有资格谈期望、方差和价值函数。价值函数本质上就是某个随机回报的条件期望。

概率就是长期频率

假设一个策略在状态 $s$ 下有两个动作：

动作	概率
left	$0.3$
right	$0.7$

意思是：如果智能体很多次来到状态 $s$ ，大约 $30\%$ 的时候会选 left， $70\%$ 的时候会选 right。

用强化学习的符号写：

$\pi(\text{left} \mid s)=0.3, \qquad \pi(\text{right} \mid s)=0.7.$

这里的竖线 $\mid$ 读作”在……条件下”。 $\pi(a \mid s)$ 的意思是：已经知道当前状态是 $s$ ，选择动作 $a$ 的概率是多少。

条件概率与状态转移

策略在选动作时有随机性，环境在给下一状态时也有随机性。前面写的 $\pi(a\mid s)$ 里的竖线 $\mid$ 就是在表达这种条件关系。更具体地看环境的随机性——执行动作 right 后：

下一状态	概率
$s_1$	$0.2$
$s_2$	$0.8$

这可以写成：

$p(s_1 \mid s, \text{right})=0.2, \qquad p(s_2 \mid s, \text{right})=0.8.$

意思是：已知当前状态是 $s$ 、动作是 right，下一状态分别是什么的概率。

马尔可夫决策过程中的状态转移概率就是这种条件概率：

$p(s' \mid s, a).$

不要急着记符号。可以把它读成一句话：在状态 $s$ 执行动作 $a$ 后，下一步来到状态 $s'$ 的概率。

期望就是加权平均

拿一个简单的例子。某个动作有两种结果：

结果	概率	奖励
成功	$0.8$	$10$
失败	$0.2$	$-5$

平均奖励不是简单的 $(10-5)/2=2.5$ ，而是按概率加权：

$\mathbb{E}[R] = 0.8 \times 10 + 0.2 \times (-5) = 7.$

$\mathbb{E}$ 是期望（expectation）的符号，方括号里的 $R$ 是随机变量。整行读作" $R$ 的期望等于 $7$ "——意思是：如果重复做这个动作很多次，平均每次拿到的奖励趋近于 $7$ 。

这行公式的结构拆解：

$\mathbb{E}$ 读作"期望"或"expectation"，它不是一个新的数，而是"把所有可能的结果按概率加权后加起来"这个操作的总称。
方括号 $[\cdot]$ 里面是要平均的随机变量。
$\sum_x p(x)x$ 是期望的展开形式——把每个可能的结果 $x$ 乘以它发生的概率 $p(x)$ ，然后全部加起来。

强化学习中的状态价值函数也是期望：

$v_\pi(s)=\mathbb{E}_\pi[G_t \mid S_t=s].$

下标 $\pi$ 表示"在策略 $\pi$ 下"，竖线后面是条件。整行读作：从状态 $s$ 出发，按策略 $\pi$ 行动，未来折扣回报 $G_t$ 的平均值是多少。

联合概率、边缘概率与全概率公式

前面看了条件概率 $p(s'\mid s,a)$ ——它描述"已知做了某个动作后，下一状态是什么"。但 RL 中的很多计算需要把条件概率组合起来：比如"从状态 $s$ 出发，最终到达状态 $s'$ 的总概率是多少？"——这个总概率需要把所有可能动作的概率加起来。要做出这种更完整的概率推理，就需要三个新工具：联合概率、边缘概率和全概率公式。

联合概率描述两个事件同时发生的概率。例如：

$P(A,B)=P(A)P(B\mid A).$

如果某个状态 $s$ 出现概率是 $0.4$ ，在这个状态下选择动作 right 的概率是 $0.7$ ，那么“来到 $s$ 且选择 right”的概率是：

$P(s,\text{right})=0.4\times0.7=0.28.$

边缘概率是把不关心的变量加掉。例如如果下一状态 $s'$ 可以由两个动作导致：

动作	$\pi(a\mid s)$	$p(s'\mid s,a)$
left	$0.3$	$0.2$
right	$0.7$	$0.8$

那么在策略 $\pi$ 下，从 $s$ 到 $s'$ 的总概率是：

$p_\pi(s'\mid s)=0.3\times0.2+0.7\times0.8=0.62.$

这就是全概率公式：

$p_\pi(s'\mid s)=\sum_a \pi(a\mid s)p(s'\mid s,a).$

贝尔曼方程里经常出现的”先对动作求和，再对下一状态求和”，本质上就是全概率公式和期望的组合。

条件期望：价值函数的数学核心

普通期望问的是”平均是多少”——对所有可能情况求平均。但在强化学习中，我们关心的不是”所有情况下的平均”，而是”已经知道当前处于状态 $s$ 时，平均能拿多少”。这就像不是问”全校学生平均考多少分”，而是问”已知这个学生来自重点班，他的平均分是多少”。条件期望就是用来回答”在某个条件已经给定时，平均是多少”的工具，它是价值函数的数学内核。

例如一个状态 $s$ 下有两个动作：

动作	概率	动作后的平均回报
left	$0.4$	$3$
right	$0.6$	$8$

如果已知当前状态是 $s$ ，但动作还按策略随机选择，那么从 $s$ 出发的平均回报是：

$\mathbb{E}[G\mid S=s]=0.4\times3+0.6\times8=6.$

状态价值函数

$v_\pi(s)=\mathbb{E}_\pi[G_t\mid S_t=s]$

就是条件期望。它不是某一次轨迹的结果，而是在“从状态 $s$ 出发”这个条件下，对所有可能未来轨迹求平均。

理解这一点后，价值函数的随机性就清楚了：轨迹可能不同，回报可能不同，但状态价值是这些回报的条件平均。

小结

本篇建立了概率论的五个基本概念：

概念	定义	RL 角色
样本空间	所有可能结果的集合	定义环境的可能状态和动作
随机变量	把随机结果映射成数字	奖励 $R$ 、回报 $G$ 、状态 $S$
概率	某个结果出现的长期频率	策略选动作的概率
条件概率	已知部分信息时的概率	状态转移 $p(s'\mid s,a)$
期望	按概率加权的平均值	价值函数 $v_\pi(s)=\mathbb{E}[G\mid s]$

概率描述随机性，条件概率描述"已知某个条件下的随机性"，期望把随机性压缩成一个代表性数值——这三个工具组合起来，就是价值函数的数学基础。

下一篇：E.2.2 随机变量、回报与状态价值 —— 把期望用到回报和价值函数上。

1. CartPole 倒立摆

2. DPO 偏好微调

3. MDP 与价值函数

4. Q-Learning 与 DQN

5. 策略梯度与 REINFORCE

6. Actor-Critic

7. PPO

8. RLHF 全流程

9. 后训练对齐

10. Agentic RL

11. VLM 强化学习

12. 未来趋势

B. RL 工程实践

E. 强化学习的数学基础

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

E.2.1 概率基础：概率、条件概率与期望

从”可能发生什么”开始

概率就是长期频率

条件概率与状态转移

期望就是加权平均

联合概率、边缘概率与全概率公式

条件期望：价值函数的数学核心

小结

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

E.2.1 概率基础：概率、条件概率与期望 ​

从”可能发生什么”开始 ​

概率就是长期频率 ​

条件概率与状态转移 ​

期望就是加权平均 ​

联合概率、边缘概率与全概率公式 ​

条件期望：价值函数的数学核心 ​

小结 ​

E.2.1 概率基础：概率、条件概率与期望

从”可能发生什么”开始

概率就是长期频率

条件概率与状态转移

期望就是加权平均

联合概率、边缘概率与全概率公式

条件期望：价值函数的数学核心

小结