Skip to content

E.1 数学对象与线性代数

第 3 章介绍了贝尔曼方程 V(s)=R(s)+γsP(ss,a)V(s)V(s) = R(s) + \gamma\sum_{s'}P(s'|s,a)V(s'),它描述了单个状态的价值。但在实际计算中需要依次解决三个问题:如何同时表达所有状态的方程、状态空间过大时如何近似、如何保证迭代过程的稳定性。E.1 模块展示每个问题对应的线性代数工具,以及它们如何逐层组合。

两状态贝尔曼方程示意图

内容概览

问题困难引入的数学工具关键公式对应第3章
方程数量过多1000 个状态 = 1000 个方程向量、矩阵、线性方程组v = (I − γP)⁻¹rDP 的数学本质
状态空间过大状态太多存不下价值表点积、范数、函数近似v̂(s) = wx(s)DQN 的数学本质
训练稳定性训练可能发散/爆炸/偏移特征值、加权范数、信任域ρ(γP) ≤ γ < 1,ΔθᵀFΔθ ≤ δPPO 的数学本质

阅读路线

文章要回答的问题对应问题
E.1.1 标量、向量与矩阵状态、价值和转移关系怎么用数学对象表示?方程数量过多(基础)
E.1.2 贝尔曼方程的矩阵形式1000 个贝尔曼方程能不能压缩成一个?方程数量过多
E.1.3 点积、范数与函数近似状态太多存不下怎么办?怎么衡量更新步子有多大?状态空间过大
E.1.4 收敛性、特征值与信任域训练会不会爆炸?怎么安全地更新参数?训练稳定性
E.1.5 公式速查与练习回到第 3 章再看一遍全景回顾

建议按顺序从 E.1.1 读到 E.1.4,然后用 E.1.5 做回顾和练习。如果某个概念已经熟悉,可以直接跳到对应文章。

Built for reusable bilingual course delivery