E.2.6 概率统计公式速查与练习

前置知识：本页汇总 E.2 模块所有公式，建议在读完 E.2.1 到 E.2.5 后再来回顾。如果你是第一次读，先跳到正文章节。

这一页汇总 E.2 模块用到的所有公式，方便回顾。建议先读完前面几篇正文再来查表。

本书中你会遇到的概率公式

概念	公式	强化学习含义
策略概率	$\pi(a\mid s)$	状态 $s$ 下选择动作 $a$ 的概率
状态转移概率	$p(s'\mid s,a)$	执行动作后进入下一状态的概率
期望	$\mathbb{E}[X]=\sum_x p(x)x$	平均奖励、平均回报、价值函数
状态价值	$v_\pi(s)=\mathbb{E}_\pi[G_t\mid S_t=s]$	从状态 $s$ 出发的平均折扣回报
方差	$\mathrm{Var}(X)=\mathbb{E}[(X-\mathbb{E}[X])^2]$	学习信号波动大小
蒙特卡洛估计	$\hat{v}(s)=\frac{1}{N}\sum_i G_i$	用采样平均估计价值
轨迹概率	$p(\tau\mid\pi)=p(s_0)\prod_t\pi(a_t\mid s_t)p(s_{t+1}\mid s_t,a_t)$	策略产生整条轨迹的概率
Baseline 去方差	$\mathbb{E}[\nabla\log\pi(a\mid s)b(s)]=0$	减 baseline 不改变梯度期望
GAE	$\hat{A}t^{GAE}=\sum_k(\gamma\lambda)^k\delta{t+k}$	在 TD 和 MC 之间折中
重要性权重	$\rho=\frac{\pi(a\mid s)}{b(a\mid s)}$	异策略校正
PPO 裁剪目标	$L^{CLIP}=\mathbb{E}[\min(r_t\hat{A}_t,\mathrm{clip}(r_t,1-\epsilon,1+\epsilon)\hat{A}_t)]$	限制重要性权重极端变化

小结

到这里，概率论的基本工具已经齐了：概率描述随机性，期望描述平均值，方差描述波动，蒙特卡洛用采样逼近期望，重要性采样用概率比修正偏差。这一页的层次是：从概率表、加权平均和采样平均开始，推广到贝尔曼期望方程、动作价值、轨迹重要性采样和随机梯度方差。读后面的复杂公式时，先看它在对什么求平均——动作、奖励、下一状态、轨迹，还是梯度样本。

常见误区

把一次回报当成价值。 价值是期望，一条轨迹的回报只是一个样本。
只看平均值，不看方差。 两个策略平均回报相同，但方差不同，训练稳定性可能完全不同。
以为重要性采样免费复用数据。 概率比可以修正偏差，但也可能显著放大方差。

小练习

三条轨迹回报为 $10,4,-2$ ，概率为 $0.2,0.5,0.3$ ，状态价值是多少？
样本回报为 $2,6,10$ ，均值和方差分别是多少？
行为策略概率为 $0.25$ ，目标策略概率为 $0.75$ ，单步重要性权重是多少？

1. CartPole 倒立摆

2. DPO 偏好微调

3. MDP 与价值函数

4. Q-Learning 与 DQN

5. 策略梯度与 REINFORCE

6. Actor-Critic

7. PPO

8. RLHF 全流程

9. 后训练对齐

10. Agentic RL

11. VLM 强化学习

12. 未来趋势

B. RL 工程实践

E. 强化学习的数学基础

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

E.2.6 概率统计公式速查与练习

本书中你会遇到的概率公式

小结

常见误区

小练习

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

E.2.6 概率统计公式速查与练习 ​

本书中你会遇到的概率公式 ​

小结 ​

常见误区 ​

小练习 ​

E.2.6 概率统计公式速查与练习

本书中你会遇到的概率公式

小结

常见误区

小练习