附录 E：强化学习的数学基础

如果你翻到这一附录，大概率是因为正文中某个公式让你卡住了——也许是贝尔曼方程里冒出来的期望符号，也许是 PPO 目标函数里那串 KL 散度，又或者是策略梯度定理里突然出现的梯度算子。

这些公式看起来吓人，但拆开来看，它们用到的数学工具并不多：标量、向量、矩阵、概率、期望、导数、梯度、熵和 KL 散度。如果你能理解这些词各自在说什么，再看它们如何组合成强化学习的公式，就不会觉得无从下手了。

本附录不会按算法来堆公式，而是按学数学的自然顺序来讲：先认识数学对象，再学运算和方程，然后进入概率、随机估计、优化，最后把这些工具组装回强化学习的完整推导。

学习路线

整个附录可以概括成一条线：

数学对象 → 线性运算 → 概率与期望 → 随机估计 → 递推方程 → 优化与梯度 → 分布距离 → 强化学习完整公式。

对应到具体文章如下。

本附录目录

节	主题	重点问题
E.1 数学对象与线性代数	标量、向量、矩阵、点积、范数、线性方程	如何把状态、价值和参数写成可计算对象？
E.2 概率、期望与随机估计	概率、条件概率、随机变量、期望、方差、采样	随机轨迹如何变成平均价值？
E.3 微积分与优化	导数、梯度、链式法则、Taylor 展开、优化算法	参数应该朝哪个方向更新？
E.4 信息论与分布距离	自信息、熵、交叉熵、KL、互信息	如何衡量策略随机性和策略变化幅度？

建议阅读顺序

如果你想系统地把数学基础过一遍，可以按这个顺序来：

E.1.1 向量与矩阵基础——先搞清楚标量、向量、矩阵、矩阵乘法这些基本对象。
E.1.2 贝尔曼矩阵形式——看线性方程组怎么表达价值递推。
E.2.1 概率、条件概率与期望——学习随机变量和期望。
E.2.2 随机轨迹与状态价值——把期望用到回报和价值函数上。
E.2.3 蒙特卡洛与重要性采样——不知道模型的时候，怎么用样本来估计。
E.3.1 导数、梯度与链式法则——理解参数变化和反向传播。
E.3.2 策略梯度与优势函数——把梯度用到策略优化上。
E.4.1 自信息、熵与探索——理解策略的随机性。
E.4.2 交叉熵与 KL——理解分布之间的距离。
最后回头读各节的"完整公式"和"公式速查与练习"。

当然，如果你只是想查某一个概念，直接跳到对应章节也完全没问题。

一个贯穿例子

后面几节会反复用到一个最小的两状态例子。环境只有两个状态 $s_1$ 和 $s_2$ ：

在 $s_1$ ，智能体获得奖励 $2$ ，然后转到 $s_2$ 。
在 $s_2$ ，智能体获得奖励 $1$ ，然后转回 $s_1$ 。
折扣因子取 $\gamma = 0.5$ 。

设两个状态的价值分别为 $v_1, v_2$ ，直觉上可以写出：

$\begin{aligned} v_1 &= 2 + 0.5v_2, \\ v_2 &= 1 + 0.5v_1. \end{aligned}$

这个例子会在不同章节里扮演不同角色：

在线性代数中，它是一个二元线性方程组。
在概率统计中，它是"即时奖励 + 下一状态期望价值"。
在随机估计中，它可以通过采样轨迹来近似。
在优化中，它会变成价值网络或策略网络的训练目标。
在信息论中，它会连接到策略分布、探索和更新约束。

只要你能把复杂公式翻译回这个两状态的小例子，数学就会从障碍变成工具。

如何使用这个附录

左侧目录分成了四个数学模块，不需要一次读完。根据你的情况，有三种用法：

系统补课。 从 E.1.1 开始顺序读，适合想从头把数学基础过一遍的读者。
按需查阅。 看不懂贝尔曼矩阵形式，就去读 E.1.2；看不懂 GAE，就去读 E.2.4 和 E.3.5；看不懂 KL 约束，就去读 E.4.2。
快速复习。 每个模块最后都有"公式与练习"，适合学完之后检查自己是否真正理解。

如果觉得侧栏条目太多，可以先只读每个模块的第一篇：

读完这四篇，再根据正文中遇到的公式回到对应专题深入即可。

1. CartPole 倒立摆

2. DPO 偏好微调

3. MDP 与价值函数

4. Q-Learning 与 DQN

5. 策略梯度与 REINFORCE

6. Actor-Critic

7. PPO

8. RLHF 全流程

9. 后训练对齐

10. Agentic RL

11. VLM 强化学习

12. 未来趋势

B. RL 工程实践

E. 强化学习的数学基础

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

附录 E：强化学习的数学基础

学习路线

本附录目录

建议阅读顺序

一个贯穿例子

如何使用这个附录

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

附录 E：强化学习的数学基础 ​

学习路线 ​

本附录目录 ​

建议阅读顺序 ​

一个贯穿例子 ​

如何使用这个附录 ​

附录 E：强化学习的数学基础

学习路线

本附录目录

建议阅读顺序

一个贯穿例子

如何使用这个附录