Skip to content

E.2 概率、期望与随机估计

强化学习里的数据来自随机交互——策略随机选动作,环境随机给反馈。要理解这些随机性,就需要概率论。这一节按概率论的自然顺序展开:先定义样本空间、事件和随机变量,再讲概率、条件概率、期望和方差,最后进入蒙特卡洛估计、重要性采样和贝尔曼期望方程。

随机轨迹与期望价值示意图

本节路线

文章数学节奏强化学习中的作用
E.2.1 概率、条件概率与期望样本空间 → 事件 → 随机变量 → 概率 → 期望描述随机策略和随机环境
E.2.2 随机变量、回报与状态价值随机回报 → 条件期望 → 方差定义价值函数和学习信号稳定性
E.2.3 方差、蒙特卡洛与采样平均样本均值 → 增量平均 → 重要性采样用数据估计未知期望
E.2.4 轨迹概率、Baseline 与 GAE轨迹概率 → baseline 不变性 → TD 误差累积连接策略梯度和优势估计
E.2.5 贝尔曼期望方程对动作、奖励、下一状态逐层求期望推导完整贝尔曼期望方程
E.2.6 小结、公式与练习公式汇总 → 误区 → 练习回顾并检查理解

Built for reusable bilingual course delivery