E.1 数学对象与线性代数
第 3 章介绍了贝尔曼方程 ,它描述了单个状态的价值。但在实际计算中需要依次解决三个问题:如何同时表达所有状态的方程、状态空间过大时如何近似、如何保证迭代过程的稳定性。E.1 模块展示每个问题对应的线性代数工具,以及它们如何逐层组合。
内容概览
| 问题 | 困难 | 引入的数学工具 | 关键公式 | 对应第3章 |
|---|---|---|---|---|
| 方程数量过多 | 1000 个状态 = 1000 个方程 | 向量、矩阵、线性方程组 | v = (I − γP)⁻¹r | DP 的数学本质 |
| 状态空间过大 | 状态太多存不下价值表 | 点积、范数、函数近似 | v̂(s) = wᵀx(s) | DQN 的数学本质 |
| 训练稳定性 | 训练可能发散/爆炸/偏移 | 特征值、加权范数、信任域 | ρ(γP) ≤ γ < 1,ΔθᵀFΔθ ≤ δ | PPO 的数学本质 |
阅读路线
| 文章 | 要回答的问题 | 对应问题 |
|---|---|---|
| E.1.1 标量、向量与矩阵 | 状态、价值和转移关系怎么用数学对象表示? | 方程数量过多(基础) |
| E.1.2 贝尔曼方程的矩阵形式 | 1000 个贝尔曼方程能不能压缩成一个? | 方程数量过多 |
| E.1.3 点积、范数与函数近似 | 状态太多存不下怎么办?怎么衡量更新步子有多大? | 状态空间过大 |
| E.1.4 收敛性、特征值与信任域 | 训练会不会爆炸?怎么安全地更新参数? | 训练稳定性 |
| E.1.5 公式速查与练习 | 回到第 3 章再看一遍 | 全景回顾 |
建议按顺序从 E.1.1 读到 E.1.4,然后用 E.1.5 做回顾和练习。如果某个概念已经熟悉,可以直接跳到对应文章。