Skip to content

附录 E:强化学习的数学基础

如果你翻到这一附录,大概率是因为正文中某个公式让你卡住了——也许是贝尔曼方程里冒出来的期望符号,也许是 PPO 目标函数里那串 KL 散度,又或者是策略梯度定理里突然出现的梯度算子。

这些公式看起来吓人,但拆开来看,它们用到的数学工具并不多:标量、向量、矩阵、概率、期望、导数、梯度、熵和 KL 散度。如果你能理解这些词各自在说什么,再看它们如何组合成强化学习的公式,就不会觉得无从下手了。

本附录不会按算法来堆公式,而是按学数学的自然顺序来讲:先认识数学对象,再学运算和方程,然后进入概率、随机估计、优化,最后把这些工具组装回强化学习的完整推导。

学习路线

整个附录可以概括成一条线:

数学对象 → 线性运算 → 概率与期望 → 随机估计 → 递推方程 → 优化与梯度 → 分布距离 → 强化学习完整公式。

对应到具体文章如下。

本附录目录

主题重点问题
E.1 数学对象与线性代数标量、向量、矩阵、点积、范数、线性方程如何把状态、价值和参数写成可计算对象?
E.2 概率、期望与随机估计概率、条件概率、随机变量、期望、方差、采样随机轨迹如何变成平均价值?
E.3 微积分与优化导数、梯度、链式法则、Taylor 展开、优化算法参数应该朝哪个方向更新?
E.4 信息论与分布距离自信息、熵、交叉熵、KL、互信息如何衡量策略随机性和策略变化幅度?

建议阅读顺序

如果你想系统地把数学基础过一遍,可以按这个顺序来:

  1. E.1.1 向量与矩阵基础——先搞清楚标量、向量、矩阵、矩阵乘法这些基本对象。
  2. E.1.2 贝尔曼矩阵形式——看线性方程组怎么表达价值递推。
  3. E.2.1 概率、条件概率与期望——学习随机变量和期望。
  4. E.2.2 随机轨迹与状态价值——把期望用到回报和价值函数上。
  5. E.2.3 蒙特卡洛与重要性采样——不知道模型的时候,怎么用样本来估计。
  6. E.3.1 导数、梯度与链式法则——理解参数变化和反向传播。
  7. E.3.2 策略梯度与优势函数——把梯度用到策略优化上。
  8. E.4.1 自信息、熵与探索——理解策略的随机性。
  9. E.4.2 交叉熵与 KL——理解分布之间的距离。
  10. 最后回头读各节的"完整公式"和"公式速查与练习"。

当然,如果你只是想查某一个概念,直接跳到对应章节也完全没问题。

一个贯穿例子

后面几节会反复用到一个最小的两状态例子。环境只有两个状态 s1s_1s2s_2

  • s1s_1,智能体获得奖励 22,然后转到 s2s_2
  • s2s_2,智能体获得奖励 11,然后转回 s1s_1
  • 折扣因子取 γ=0.5\gamma = 0.5

设两个状态的价值分别为 v1,v2v_1, v_2,直觉上可以写出:

v1=2+0.5v2,v2=1+0.5v1.\begin{aligned} v_1 &= 2 + 0.5v_2, \\ v_2 &= 1 + 0.5v_1. \end{aligned}

这个例子会在不同章节里扮演不同角色:

  • 在线性代数中,它是一个二元线性方程组。
  • 在概率统计中,它是"即时奖励 + 下一状态期望价值"。
  • 在随机估计中,它可以通过采样轨迹来近似。
  • 在优化中,它会变成价值网络或策略网络的训练目标。
  • 在信息论中,它会连接到策略分布、探索和更新约束。

只要你能把复杂公式翻译回这个两状态的小例子,数学就会从障碍变成工具。

如何使用这个附录

左侧目录分成了四个数学模块,不需要一次读完。根据你的情况,有三种用法:

  1. 系统补课。 从 E.1.1 开始顺序读,适合想从头把数学基础过一遍的读者。
  2. 按需查阅。 看不懂贝尔曼矩阵形式,就去读 E.1.2;看不懂 GAE,就去读 E.2.4 和 E.3.5;看不懂 KL 约束,就去读 E.4.2。
  3. 快速复习。 每个模块最后都有"公式与练习",适合学完之后检查自己是否真正理解。

如果觉得侧栏条目太多,可以先只读每个模块的第一篇:

读完这四篇,再根据正文中遇到的公式回到对应专题深入即可。

Built for reusable bilingual course delivery