E.2.1 概率基础:概率、条件概率与期望
前置知识:本篇不需要概率论基础,但建议先读完附录导读中的”两状态贯穿例子”。
从”可能发生什么”开始
概率论不从策略开始,而是从一个更基本的问题开始:随机事件长什么样?
样本空间 是所有可能结果的集合。例如掷一次骰子:
事件是样本空间的一个子集。例如“掷出偶数”这个事件是:
随机变量是把随机结果映射成数字的函数。例如 表示骰子点数,那么 。在强化学习中,奖励 、回报 、下一状态 都可以看成随机变量。
有了随机变量,我们才有资格谈期望、方差和价值函数。价值函数本质上就是某个随机回报的条件期望。
概率就是长期频率
假设一个策略在状态 下有两个动作:
| 动作 | 概率 |
|---|---|
| left | |
| right |
意思是:如果智能体很多次来到状态 ,大约 的时候会选 left, 的时候会选 right。
用强化学习的符号写:
这里的竖线 读作”在……条件下”。 的意思是:已经知道当前状态是 ,选择动作 的概率是多少。
条件概率与状态转移
策略在选动作时有随机性,环境在给下一状态时也有随机性。前面写的 里的竖线 就是在表达这种条件关系。更具体地看环境的随机性——执行动作 right 后:
| 下一状态 | 概率 |
|---|---|
这可以写成:
意思是:已知当前状态是 、动作是 right,下一状态分别是什么的概率。
马尔可夫决策过程中的状态转移概率就是这种条件概率:
不要急着记符号。可以把它读成一句话:在状态 执行动作 后,下一步来到状态 的概率。
期望就是加权平均
拿一个简单的例子。某个动作有两种结果:
| 结果 | 概率 | 奖励 |
|---|---|---|
| 成功 | ||
| 失败 |
平均奖励不是简单的 ,而是按概率加权:
是期望(expectation)的符号,方括号里的 是随机变量。整行读作" 的期望等于 "——意思是:如果重复做这个动作很多次,平均每次拿到的奖励趋近于 。
这行公式的结构拆解:
- 读作"期望"或"expectation",它不是一个新的数,而是"把所有可能的结果按概率加权后加起来"这个操作的总称。
- 方括号 里面是要平均的随机变量。
- 是期望的展开形式——把每个可能的结果 乘以它发生的概率 ,然后全部加起来。
强化学习中的状态价值函数也是期望:
下标 表示"在策略 下",竖线后面是条件。整行读作:从状态 出发,按策略 行动,未来折扣回报 的平均值是多少。
联合概率、边缘概率与全概率公式
前面看了条件概率 ——它描述"已知做了某个动作后,下一状态是什么"。但 RL 中的很多计算需要把条件概率组合起来:比如"从状态 出发,最终到达状态 的总概率是多少?"——这个总概率需要把所有可能动作的概率加起来。要做出这种更完整的概率推理,就需要三个新工具:联合概率、边缘概率和全概率公式。
联合概率描述两个事件同时发生的概率。例如:
如果某个状态 出现概率是 ,在这个状态下选择动作 right 的概率是 ,那么“来到 且选择 right”的概率是:
边缘概率是把不关心的变量加掉。例如如果下一状态 可以由两个动作导致:
| 动作 | ||
|---|---|---|
| left | ||
| right |
那么在策略 下,从 到 的总概率是:
这就是全概率公式:
贝尔曼方程里经常出现的”先对动作求和,再对下一状态求和”,本质上就是全概率公式和期望的组合。
条件期望:价值函数的数学核心
普通期望问的是”平均是多少”——对所有可能情况求平均。但在强化学习中,我们关心的不是”所有情况下的平均”,而是”已经知道当前处于状态 时,平均能拿多少”。这就像不是问”全校学生平均考多少分”,而是问”已知这个学生来自重点班,他的平均分是多少”。条件期望就是用来回答”在某个条件已经给定时,平均是多少”的工具,它是价值函数的数学内核。
例如一个状态 下有两个动作:
| 动作 | 概率 | 动作后的平均回报 |
|---|---|---|
| left | ||
| right |
如果已知当前状态是 ,但动作还按策略随机选择,那么从 出发的平均回报是:
状态价值函数
就是条件期望。它不是某一次轨迹的结果,而是在“从状态 出发”这个条件下,对所有可能未来轨迹求平均。
理解这一点后,价值函数的随机性就清楚了:轨迹可能不同,回报可能不同,但状态价值是这些回报的条件平均。
小结
本篇建立了概率论的五个基本概念:
| 概念 | 定义 | RL 角色 |
|---|---|---|
| 样本空间 | 所有可能结果的集合 | 定义环境的可能状态和动作 |
| 随机变量 | 把随机结果映射成数字 | 奖励 、回报 、状态 |
| 概率 | 某个结果出现的长期频率 | 策略选动作的概率 |
| 条件概率 | 已知部分信息时的概率 | 状态转移 |
| 期望 | 按概率加权的平均值 | 价值函数 |
概率描述随机性,条件概率描述"已知某个条件下的随机性",期望把随机性压缩成一个代表性数值——这三个工具组合起来,就是价值函数的数学基础。
下一篇:E.2.2 随机变量、回报与状态价值 —— 把期望用到回报和价值函数上。