D.1 数学对象与线性代数

第 3 章介绍了贝尔曼方程 $V (s) = R (s) + γ \sum_{s^{'}} P (s^{'} ∣ s, a) V (s^{'})$ ，它描述了单个状态的价值。但在实际计算中需要依次解决三个问题：如何同时表达所有状态的方程、状态空间过大时如何近似、如何保证迭代过程的稳定性。E.1 模块展示每个问题对应的线性代数工具，以及它们如何逐层组合。

两状态贝尔曼方程示意图

内容概览

问题	困难	引入的数学工具	关键公式	对应第3章
方程数量过多	1000 个状态 = 1000 个方程	向量、矩阵、线性方程组	v = (I − γP)⁻¹r	DP 的数学本质
状态空间过大	状态太多存不下价值表	点积、范数、函数近似	v̂(s) = wᵀx (s)	DQN 的数学本质
训练稳定性	训练可能发散/爆炸/偏移	特征值、加权范数、信任域	ρ(γP) ≤ γ < 1，ΔθᵀFΔθ ≤ δ	PPO 的数学本质

阅读路线

文章	要回答的问题	对应问题
E.1.1 标量、向量与矩阵	状态、价值和转移关系怎么用数学对象表示？	方程数量过多（基础）
E.1.2 贝尔曼方程的矩阵形式	1000 个贝尔曼方程能不能压缩成一个？	方程数量过多
E.1.3 点积、范数与函数近似	状态太多存不下怎么办？怎么衡量更新步子有多大？	状态空间过大
E.1.4 收敛性、特征值与信任域	训练会不会爆炸？怎么安全地更新参数？	训练稳定性
E.1.5 公式速查与练习	回到第 3 章再看一遍	全景回顾

建议按顺序从 E.1.1 读到 E.1.4，然后用 E.1.5 做回顾和练习。如果某个概念已经熟悉，可以直接跳到对应文章。

D.1 线性代数

D.2 概率、期望与随机估计

D.3 微积分与优化

D.4 信息论与分布距离

D.1 数学对象与线性代数

内容概览

阅读路线

D.1 数学对象与线性代数 ​

内容概览 ​

阅读路线 ​

D.1 数学对象与线性代数

内容概览

阅读路线