Skip to content

E.2.6 概率统计公式速查与练习

前置知识:本页汇总 E.2 模块所有公式,建议在读完 E.2.1E.2.5 后再来回顾。如果你是第一次读,先跳到正文章节。


这一页汇总 E.2 模块用到的所有公式,方便回顾。建议先读完前面几篇正文再来查表。

本书中你会遇到的概率公式

概念公式强化学习含义
策略概率π(as)\pi(a\mid s)状态 ss 下选择动作 aa 的概率
状态转移概率p(ss,a)p(s'\mid s,a)执行动作后进入下一状态的概率
期望E[X]=xp(x)x\mathbb{E}[X]=\sum_x p(x)x平均奖励、平均回报、价值函数
状态价值vπ(s)=Eπ[GtSt=s]v_\pi(s)=\mathbb{E}_\pi[G_t\mid S_t=s]从状态 ss 出发的平均折扣回报
方差Var(X)=E[(XE[X])2]\mathrm{Var}(X)=\mathbb{E}[(X-\mathbb{E}[X])^2]学习信号波动大小
蒙特卡洛估计v^(s)=1NiGi\hat{v}(s)=\frac{1}{N}\sum_i G_i用采样平均估计价值
轨迹概率p(τπ)=p(s0)tπ(atst)p(st+1st,at)p(\tau\mid\pi)=p(s_0)\prod_t\pi(a_t\mid s_t)p(s_{t+1}\mid s_t,a_t)策略产生整条轨迹的概率
Baseline 去方差E[logπ(as)b(s)]=0\mathbb{E}[\nabla\log\pi(a\mid s)b(s)]=0减 baseline 不改变梯度期望
GAE$\hat{A}t^{GAE}=\sum_k(\gamma\lambda)^k\delta{t+k}$在 TD 和 MC 之间折中
重要性权重ρ=π(as)b(as)\rho=\frac{\pi(a\mid s)}{b(a\mid s)}异策略校正
PPO 裁剪目标LCLIP=E[min(rtA^t,clip(rt,1ϵ,1+ϵ)A^t)]L^{CLIP}=\mathbb{E}[\min(r_t\hat{A}_t,\mathrm{clip}(r_t,1-\epsilon,1+\epsilon)\hat{A}_t)]限制重要性权重极端变化

小结

到这里,概率论的基本工具已经齐了:概率描述随机性,期望描述平均值,方差描述波动,蒙特卡洛用采样逼近期望,重要性采样用概率比修正偏差。这一页的层次是:从概率表、加权平均和采样平均开始,推广到贝尔曼期望方程、动作价值、轨迹重要性采样和随机梯度方差。读后面的复杂公式时,先看它在对什么求平均——动作、奖励、下一状态、轨迹,还是梯度样本。


常见误区

  1. 把一次回报当成价值。 价值是期望,一条轨迹的回报只是一个样本。
  2. 只看平均值,不看方差。 两个策略平均回报相同,但方差不同,训练稳定性可能完全不同。
  3. 以为重要性采样免费复用数据。 概率比可以修正偏差,但也可能显著放大方差。

小练习

  1. 三条轨迹回报为 10,4,210,4,-2,概率为 0.2,0.5,0.30.2,0.5,0.3,状态价值是多少?
  2. 样本回报为 2,6,102,6,10,均值和方差分别是多少?
  3. 行为策略概率为 0.250.25,目标策略概率为 0.750.75,单步重要性权重是多少?

Built for reusable bilingual course delivery