Skip to content

E.2.1 概率基础:概率、条件概率与期望

前置知识:本篇不需要概率论基础,但建议先读完附录导读中的”两状态贯穿例子”。


从”可能发生什么”开始

概率论不从策略开始,而是从一个更基本的问题开始:随机事件长什么样?

样本空间 Ω\Omega 是所有可能结果的集合。例如掷一次骰子:

Ω={1,2,3,4,5,6}.\Omega=\{1,2,3,4,5,6\}.

事件是样本空间的一个子集。例如“掷出偶数”这个事件是:

A={2,4,6}.A=\{2,4,6\}.

随机变量是把随机结果映射成数字的函数。例如 XX 表示骰子点数,那么 X(ω)=ωX(\omega)=\omega。在强化学习中,奖励 Rt+1R_{t+1}、回报 GtG_t、下一状态 St+1S_{t+1} 都可以看成随机变量。

有了随机变量,我们才有资格谈期望、方差和价值函数。价值函数本质上就是某个随机回报的条件期望。


概率就是长期频率

假设一个策略在状态 ss 下有两个动作:

动作概率
left0.30.3
right0.70.7

意思是:如果智能体很多次来到状态 ss,大约 30%30\% 的时候会选 left,70%70\% 的时候会选 right。

用强化学习的符号写:

π(lefts)=0.3,π(rights)=0.7.\pi(\text{left} \mid s)=0.3, \qquad \pi(\text{right} \mid s)=0.7.

这里的竖线 \mid 读作”在……条件下”。π(as)\pi(a \mid s) 的意思是:已经知道当前状态是 ss,选择动作 aa 的概率是多少。


条件概率与状态转移

策略在选动作时有随机性,环境在给下一状态时也有随机性。前面写的 π(as)\pi(a\mid s) 里的竖线 \mid 就是在表达这种条件关系。更具体地看环境的随机性——执行动作 right 后:

下一状态概率
s1s_10.20.2
s2s_20.80.8

这可以写成:

p(s1s,right)=0.2,p(s2s,right)=0.8.p(s_1 \mid s, \text{right})=0.2, \qquad p(s_2 \mid s, \text{right})=0.8.

意思是:已知当前状态是 ss、动作是 right,下一状态分别是什么的概率。

马尔可夫决策过程中的状态转移概率就是这种条件概率:

p(ss,a).p(s' \mid s, a).

不要急着记符号。可以把它读成一句话:在状态 ss 执行动作 aa 后,下一步来到状态 ss' 的概率


期望就是加权平均

拿一个简单的例子。某个动作有两种结果:

结果概率奖励
成功0.80.81010
失败0.20.25-5

平均奖励不是简单的 (105)/2=2.5(10-5)/2=2.5,而是按概率加权:

E[R]=0.8×10+0.2×(5)=7.\mathbb{E}[R] = 0.8 \times 10 + 0.2 \times (-5) = 7.

E\mathbb{E} 是期望(expectation)的符号,方括号里的 RR 是随机变量。整行读作"RR 的期望等于 77"——意思是:如果重复做这个动作很多次,平均每次拿到的奖励趋近于 77

这行公式的结构拆解:

  • E\mathbb{E} 读作"期望"或"expectation",它不是一个新的数,而是"把所有可能的结果按概率加权后加起来"这个操作的总称。
  • 方括号 [][\cdot] 里面是要平均的随机变量。
  • xp(x)x\sum_x p(x)x 是期望的展开形式——把每个可能的结果 xx 乘以它发生的概率 p(x)p(x),然后全部加起来。

强化学习中的状态价值函数也是期望:

vπ(s)=Eπ[GtSt=s].v_\pi(s)=\mathbb{E}_\pi[G_t \mid S_t=s].

下标 π\pi 表示"在策略 π\pi 下",竖线后面是条件。整行读作:从状态 ss 出发,按策略 π\pi 行动,未来折扣回报 GtG_t 的平均值是多少。

联合概率、边缘概率与全概率公式

前面看了条件概率 p(ss,a)p(s'\mid s,a)——它描述"已知做了某个动作后,下一状态是什么"。但 RL 中的很多计算需要把条件概率组合起来:比如"从状态 ss 出发,最终到达状态 ss' 的总概率是多少?"——这个总概率需要把所有可能动作的概率加起来。要做出这种更完整的概率推理,就需要三个新工具:联合概率、边缘概率和全概率公式。

联合概率描述两个事件同时发生的概率。例如:

P(A,B)=P(A)P(BA).P(A,B)=P(A)P(B\mid A).

如果某个状态 ss 出现概率是 0.40.4,在这个状态下选择动作 right 的概率是 0.70.7,那么“来到 ss 且选择 right”的概率是:

P(s,right)=0.4×0.7=0.28.P(s,\text{right})=0.4\times0.7=0.28.

边缘概率是把不关心的变量加掉。例如如果下一状态 ss' 可以由两个动作导致:

动作π(as)\pi(a\mid s)p(ss,a)p(s'\mid s,a)
left0.30.30.20.2
right0.70.70.80.8

那么在策略 π\pi 下,从 ssss' 的总概率是:

pπ(ss)=0.3×0.2+0.7×0.8=0.62.p_\pi(s'\mid s)=0.3\times0.2+0.7\times0.8=0.62.

这就是全概率公式:

pπ(ss)=aπ(as)p(ss,a).p_\pi(s'\mid s)=\sum_a \pi(a\mid s)p(s'\mid s,a).

贝尔曼方程里经常出现的”先对动作求和,再对下一状态求和”,本质上就是全概率公式和期望的组合。


条件期望:价值函数的数学核心

普通期望问的是”平均是多少”——对所有可能情况求平均。但在强化学习中,我们关心的不是”所有情况下的平均”,而是”已经知道当前处于状态 ss 时,平均能拿多少”。这就像不是问”全校学生平均考多少分”,而是问”已知这个学生来自重点班,他的平均分是多少”。条件期望就是用来回答”在某个条件已经给定时,平均是多少”的工具,它是价值函数的数学内核。

例如一个状态 ss 下有两个动作:

动作概率动作后的平均回报
left0.40.433
right0.60.688

如果已知当前状态是 ss,但动作还按策略随机选择,那么从 ss 出发的平均回报是:

E[GS=s]=0.4×3+0.6×8=6.\mathbb{E}[G\mid S=s]=0.4\times3+0.6\times8=6.

状态价值函数

vπ(s)=Eπ[GtSt=s]v_\pi(s)=\mathbb{E}_\pi[G_t\mid S_t=s]

就是条件期望。它不是某一次轨迹的结果,而是在“从状态 ss 出发”这个条件下,对所有可能未来轨迹求平均。

理解这一点后,价值函数的随机性就清楚了:轨迹可能不同,回报可能不同,但状态价值是这些回报的条件平均。


小结

本篇建立了概率论的五个基本概念:

概念定义RL 角色
样本空间所有可能结果的集合定义环境的可能状态和动作
随机变量把随机结果映射成数字奖励 RR、回报 GG、状态 SS
概率某个结果出现的长期频率策略选动作的概率
条件概率已知部分信息时的概率状态转移 p(ss,a)p(s'\mid s,a)
期望按概率加权的平均值价值函数 vπ(s)=E[Gs]v_\pi(s)=\mathbb{E}[G\mid s]

概率描述随机性,条件概率描述"已知某个条件下的随机性",期望把随机性压缩成一个代表性数值——这三个工具组合起来,就是价值函数的数学基础。

下一篇E.2.2 随机变量、回报与状态价值 —— 把期望用到回报和价值函数上。

Built for reusable bilingual course delivery