E.2.6 概率统计公式速查与练习
前置知识:本页汇总 E.2 模块所有公式,建议在读完 E.2.1 到 E.2.5 后再来回顾。如果你是第一次读,先跳到正文章节。
这一页汇总 E.2 模块用到的所有公式,方便回顾。建议先读完前面几篇正文再来查表。
本书中你会遇到的概率公式
| 概念 | 公式 | 强化学习含义 |
|---|---|---|
| 策略概率 | 状态 下选择动作 的概率 | |
| 状态转移概率 | 执行动作后进入下一状态的概率 | |
| 期望 | 平均奖励、平均回报、价值函数 | |
| 状态价值 | 从状态 出发的平均折扣回报 | |
| 方差 | 学习信号波动大小 | |
| 蒙特卡洛估计 | 用采样平均估计价值 | |
| 轨迹概率 | 策略产生整条轨迹的概率 | |
| Baseline 去方差 | 减 baseline 不改变梯度期望 | |
| GAE | $\hat{A}t^{GAE}=\sum_k(\gamma\lambda)^k\delta{t+k}$ | 在 TD 和 MC 之间折中 |
| 重要性权重 | 异策略校正 | |
| PPO 裁剪目标 | 限制重要性权重极端变化 |
小结
到这里,概率论的基本工具已经齐了:概率描述随机性,期望描述平均值,方差描述波动,蒙特卡洛用采样逼近期望,重要性采样用概率比修正偏差。这一页的层次是:从概率表、加权平均和采样平均开始,推广到贝尔曼期望方程、动作价值、轨迹重要性采样和随机梯度方差。读后面的复杂公式时,先看它在对什么求平均——动作、奖励、下一状态、轨迹,还是梯度样本。
常见误区
- 把一次回报当成价值。 价值是期望,一条轨迹的回报只是一个样本。
- 只看平均值,不看方差。 两个策略平均回报相同,但方差不同,训练稳定性可能完全不同。
- 以为重要性采样免费复用数据。 概率比可以修正偏差,但也可能显著放大方差。
小练习
- 三条轨迹回报为 ,概率为 ,状态价值是多少?
- 样本回报为 ,均值和方差分别是多少?
- 行为策略概率为 ,目标策略概率为 ,单步重要性权重是多少?