附录 E:强化学习的数学基础
如果你翻到这一附录,大概率是因为正文中某个公式让你卡住了——也许是贝尔曼方程里冒出来的期望符号,也许是 PPO 目标函数里那串 KL 散度,又或者是策略梯度定理里突然出现的梯度算子。
这些公式看起来吓人,但拆开来看,它们用到的数学工具并不多:标量、向量、矩阵、概率、期望、导数、梯度、熵和 KL 散度。如果你能理解这些词各自在说什么,再看它们如何组合成强化学习的公式,就不会觉得无从下手了。
本附录不会按算法来堆公式,而是按学数学的自然顺序来讲:先认识数学对象,再学运算和方程,然后进入概率、随机估计、优化,最后把这些工具组装回强化学习的完整推导。
学习路线
整个附录可以概括成一条线:
数学对象 → 线性运算 → 概率与期望 → 随机估计 → 递推方程 → 优化与梯度 → 分布距离 → 强化学习完整公式。
对应到具体文章如下。
本附录目录
| 节 | 主题 | 重点问题 |
|---|---|---|
| E.1 数学对象与线性代数 | 标量、向量、矩阵、点积、范数、线性方程 | 如何把状态、价值和参数写成可计算对象? |
| E.2 概率、期望与随机估计 | 概率、条件概率、随机变量、期望、方差、采样 | 随机轨迹如何变成平均价值? |
| E.3 微积分与优化 | 导数、梯度、链式法则、Taylor 展开、优化算法 | 参数应该朝哪个方向更新? |
| E.4 信息论与分布距离 | 自信息、熵、交叉熵、KL、互信息 | 如何衡量策略随机性和策略变化幅度? |
建议阅读顺序
如果你想系统地把数学基础过一遍,可以按这个顺序来:
- E.1.1 向量与矩阵基础——先搞清楚标量、向量、矩阵、矩阵乘法这些基本对象。
- E.1.2 贝尔曼矩阵形式——看线性方程组怎么表达价值递推。
- E.2.1 概率、条件概率与期望——学习随机变量和期望。
- E.2.2 随机轨迹与状态价值——把期望用到回报和价值函数上。
- E.2.3 蒙特卡洛与重要性采样——不知道模型的时候,怎么用样本来估计。
- E.3.1 导数、梯度与链式法则——理解参数变化和反向传播。
- E.3.2 策略梯度与优势函数——把梯度用到策略优化上。
- E.4.1 自信息、熵与探索——理解策略的随机性。
- E.4.2 交叉熵与 KL——理解分布之间的距离。
- 最后回头读各节的"完整公式"和"公式速查与练习"。
当然,如果你只是想查某一个概念,直接跳到对应章节也完全没问题。
一个贯穿例子
后面几节会反复用到一个最小的两状态例子。环境只有两个状态 和 :
- 在 ,智能体获得奖励 ,然后转到 。
- 在 ,智能体获得奖励 ,然后转回 。
- 折扣因子取 。
设两个状态的价值分别为 ,直觉上可以写出:
这个例子会在不同章节里扮演不同角色:
- 在线性代数中,它是一个二元线性方程组。
- 在概率统计中,它是"即时奖励 + 下一状态期望价值"。
- 在随机估计中,它可以通过采样轨迹来近似。
- 在优化中,它会变成价值网络或策略网络的训练目标。
- 在信息论中,它会连接到策略分布、探索和更新约束。
只要你能把复杂公式翻译回这个两状态的小例子,数学就会从障碍变成工具。
如何使用这个附录
左侧目录分成了四个数学模块,不需要一次读完。根据你的情况,有三种用法:
- 系统补课。 从 E.1.1 开始顺序读,适合想从头把数学基础过一遍的读者。
- 按需查阅。 看不懂贝尔曼矩阵形式,就去读 E.1.2;看不懂 GAE,就去读 E.2.4 和 E.3.5;看不懂 KL 约束,就去读 E.4.2。
- 快速复习。 每个模块最后都有"公式与练习",适合学完之后检查自己是否真正理解。
如果觉得侧栏条目太多,可以先只读每个模块的第一篇:
读完这四篇,再根据正文中遇到的公式回到对应专题深入即可。