E.2 概率、期望与随机估计
强化学习里的数据来自随机交互——策略随机选动作,环境随机给反馈。要理解这些随机性,就需要概率论。这一节按概率论的自然顺序展开:先定义样本空间、事件和随机变量,再讲概率、条件概率、期望和方差,最后进入蒙特卡洛估计、重要性采样和贝尔曼期望方程。
本节路线
| 文章 | 数学节奏 | 强化学习中的作用 |
|---|---|---|
| E.2.1 概率、条件概率与期望 | 样本空间 → 事件 → 随机变量 → 概率 → 期望 | 描述随机策略和随机环境 |
| E.2.2 随机变量、回报与状态价值 | 随机回报 → 条件期望 → 方差 | 定义价值函数和学习信号稳定性 |
| E.2.3 方差、蒙特卡洛与采样平均 | 样本均值 → 增量平均 → 重要性采样 | 用数据估计未知期望 |
| E.2.4 轨迹概率、Baseline 与 GAE | 轨迹概率 → baseline 不变性 → TD 误差累积 | 连接策略梯度和优势估计 |
| E.2.5 贝尔曼期望方程 | 对动作、奖励、下一状态逐层求期望 | 推导完整贝尔曼期望方程 |
| E.2.6 小结、公式与练习 | 公式汇总 → 误区 → 练习 | 回顾并检查理解 |