跳转到正文

E.2.6 概率统计公式速查与练习

前置知识:本页汇总 E.2 模块所有公式,建议在读完 E.2.1E.2.5 后再来回顾。如果你是第一次读,先跳到正文章节。


这一页汇总 E.2 模块用到的所有公式,方便回顾。建议先读完前面几篇正文再来查表。

本书中你会遇到的概率公式

概念公式强化学习含义
策略概率$\pi(a\mid s)$状态 ss 下选择动作 aa 的概率
状态转移概率$p(s'\mid s,a)$执行动作后进入下一状态的概率
期望$\mathbb{E}[X]=\sum_x p(x)x$平均奖励、平均回报、价值函数
状态价值$v_\pi(s)=\mathbb{E}_\pi[G_t\mid S_t=s]$从状态 ss 出发的平均折扣回报
方差$\mathrm{Var}(X)=\mathbb{E}[(X-\mathbb{E}[X])^2]$学习信号波动大小
蒙特卡洛估计$\hat{v}(s)=\frac{1}{N}\sum_i G_i$用采样平均估计价值
轨迹概率$p(\tau\mid\pi)=p(s_0)\prod_t\pi(a_t\mid s_t)p(s_{t+1}\mid s_t,a_t)$策略产生整条轨迹的概率
Baseline 去方差$\mathbb{E}[\nabla\log\pi(a\mid s)b(s)]=0$减 baseline 不改变梯度期望
GAE$\hat{A}_t^{\mathrm{GAE}}=\sum_k(\gamma\lambda)^k\delta_{t+k}$在 TD 和 MC 之间折中
重要性权重$\rho=\frac{\pi(a\mid s)}{b(a\mid s)}$异策略校正
PPO 裁剪目标$L^{CLIP}=\mathbb{E}[\min(r_t\hat{A}_t,\mathrm{clip}(r_t,1-\epsilon,1+\epsilon)\hat{A}_t)]$限制重要性权重极端变化

小结

到这里,概率论的基本工具已经齐了:概率描述随机性,期望描述平均值,方差描述波动,蒙特卡洛用采样逼近期望,重要性采样用概率比修正偏差。这一页的层次是:从概率表、加权平均和采样平均开始,推广到贝尔曼期望方程、动作价值、轨迹重要性采样和随机梯度方差。读后面的复杂公式时,先看它在对什么求平均——动作、奖励、下一状态、轨迹,还是梯度样本。


常见误区

  1. 把一次回报当成价值。 价值是期望,一条轨迹的回报只是一个样本。
  2. 只看平均值,不看方差。 两个策略平均回报相同,但方差不同,训练稳定性可能完全不同。
  3. 以为重要性采样免费复用数据。 概率比可以修正偏差,但也可能显著放大方差。

小练习

  1. 三条轨迹回报为 10,4,210,4,-2,概率为 0.2,0.5,0.30.2,0.5,0.3,状态价值是多少?
  2. 样本回报为 2,6,102,6,10,均值和方差分别是多少?
  3. 行为策略概率为 0.250.25,目标策略概率为 0.750.75,单步重要性权重是多少?

现代强化学习实战课程