D.2 概率、期望与随机估计

强化学习里的数据来自随机交互——策略随机选动作，环境随机给反馈。要理解这些随机性，就需要概率论。这一节按概率论的自然顺序展开：先定义样本空间、事件和随机变量，再讲概率、条件概率、期望和方差，最后进入蒙特卡洛估计、重要性采样和贝尔曼期望方程。

随机轨迹与期望价值示意图

本节路线

文章	数学节奏	强化学习中的作用
E.2.1 概率、条件概率与期望	样本空间 → 事件 → 随机变量 → 概率 → 期望	描述随机策略和随机环境
E.2.2 随机变量、回报与状态价值	随机回报 → 条件期望 → 方差	定义价值函数和学习信号稳定性
E.2.3 方差、蒙特卡洛与采样平均	样本均值 → 增量平均 → 重要性采样	用数据估计未知期望
E.2.4 轨迹概率、Baseline 与 GAE	轨迹概率 → baseline 不变性 → TD 误差累积	连接策略梯度和优势估计
E.2.5 贝尔曼期望方程	对动作、奖励、下一状态逐层求期望	推导完整贝尔曼期望方程
E.2.6 小结、公式与练习	公式汇总 → 误区 → 练习	回顾并检查理解