E.1.4 收敛性、特征值与信任域

前置知识：E.1.2 贝尔曼矩阵形式——需了解贝尔曼方程的矩阵形式 $\boldsymbol{v} = \boldsymbol{r} + \gamma P\boldsymbol{v}$ 。E.1.3 点积与范数——需了解 L2 范数的定义。

概述

前两篇推导了贝尔曼方程的矩阵形式 $\boldsymbol{v} = \boldsymbol{r} + \gamma P\boldsymbol{v}$ ，也讨论了函数近似。两者有一个共同的前提：训练过程要反复应用更新规则。不管是值迭代 $v_{k+1} = r + \gamma P v_k$ 还是 SGD 更新权重 $\boldsymbol{w} \leftarrow \boldsymbol{w} - \alpha \boldsymbol{g}$ ，都在反复迭代。

上一篇结尾留下了两个待解决的问题：

反复迭代 $v_{k+1} = r + \gamma P v_k$ ，如何保证迭代序列收敛，而非持续震荡或发散？
策略参数更新时，梯度裁剪限制了每一步的步长上限，但不同参数方向上同样的步长对策略分布的影响截然不同——这一问题需要更精细的约束机制。

这两个问题的答案涉及三个数学工具，分别从长期、短期和精细化三个层面保证训练的稳定性。本篇将建立以下三个核心结论：

特征值保证收敛

$\boxed{\rho(\gamma P) \leq \gamma < 1 \quad\Longrightarrow\quad \|\boldsymbol{e}_{k}\| \leq \gamma^k \|\boldsymbol{e}_0\| \to 0}$

范数限制单步幅度

$\boxed{\|\boldsymbol{g}_{clipped}\|_2 = \min\!\left(\|\boldsymbol{g}\|_2,\; c\right)}$

加权范数实现方向敏感的安全更新

$\boxed{\Delta\theta^\top F\,\Delta\theta \leq \delta}$

以下逐一展开分析。

收敛性：贝尔曼更新收敛的条件与保证

收敛性的直观来源：从一维到二维

先看一个简单的数字变换：

$x_{k+1} = 0.5\,x_k.$

如果 $x_0=8$ ，那么 $8 \to 4 \to 2 \to 1 \to 0.5 \to \cdots$ 。因为每一步都乘以 $0.5$ （绝对值小于 $1$ ），最终收敛到 $0$ 。

现在换成二维。一个变换把向量的两个分量分别乘以 $0.5$ 和 $0.3$ ：

$A = \begin{bmatrix} 0.5 & 0 \\ 0 & 0.3 \end{bmatrix}.$

那么 $A^k$ 把第一个分量乘以 $0.5^k$ ，第二个分量乘以 $0.3^k$ 。随着 $k$ 增大，两个分量都趋于 $0$ 。

关键观察：这个变换在两个方向上分别缩放 $0.5$ 和 $0.3$ 倍。 $0.5$ 和 $0.3$ 就是这个矩阵的特征值。

特征值与特征向量

更一般地，如果存在非零向量 $\boldsymbol{u}$ 和标量 $\lambda$ ，使得：

$A\boldsymbol{u} = \lambda \boldsymbol{u},$

那么 $\boldsymbol{u}$ 是矩阵 $A$ 的特征向量， $\lambda$ 是对应的特征值。换言之：矩阵 $A$ 作用在 $\boldsymbol{u}$ 上时，不改变该向量的方向，只将其长度缩放 $\lambda$ 倍。

具体计算步骤

以下先通过一般矩阵演示特征值的计算方法，再将结论应用于贝尔曼更新，说明变换矩阵 $\gamma P$ 的特征值为何必然小于 $1$ 。

看一个 $2\times2$ 矩阵：

$A = \begin{bmatrix} 4 & 1 \\ 2 & 3 \end{bmatrix}.$

特征值满足特征方程 $\det(A - \lambda I) = 0$ ：

$\det\begin{bmatrix} 4-\lambda & 1 \\ 2 & 3-\lambda \end{bmatrix} = 0.$

展开：

$(4-\lambda)(3-\lambda) - 2 = 0 \quad\Longrightarrow\quad \lambda^2 - 7\lambda + 10 = 0.$

解这个二次方程：

$\lambda = \frac{7 \pm \sqrt{49-40}}{2} = \frac{7 \pm 3}{2}.$

所以 $\lambda_1 = 5$ ， $\lambda_2 = 2$ 。几何含义：在这个矩阵的作用下，某些方向的向量被缩放 $5$ 倍，另一些方向被缩放 $2$ 倍。反复应用 $A$ 时， $\lambda_1 = 5$ 方向的增长会主导。

由此可直接得出：如果一个矩阵的最大特征值绝对值大于 $1$ ，反复应用会让向量越来越大（发散）；如果小于 $1$ ，向量会越来越小（收敛）。

贝尔曼更新收敛性的特征值论证

一维情况下乘以 $0.5$ 会收敛，二维情况下当所有特征值绝对值均小于 $1$ 时同样收敛。这一结论可直接应用于贝尔曼更新。

$\boldsymbol{v}_{k+1} = \boldsymbol{r} + \gamma P\boldsymbol{v}_k.$

假设真实解是 $\boldsymbol{v}^*$ ，满足 $\boldsymbol{v}^* = \boldsymbol{r} + \gamma P\boldsymbol{v}^*$ 。两式相减，得到误差递推：

$\boldsymbol{v}_{k+1} - \boldsymbol{v}^* = \gamma P(\boldsymbol{v}_k - \boldsymbol{v}^*).$

令误差 $\boldsymbol{e}_k = \boldsymbol{v}_k - \boldsymbol{v}^*$ ，则：

$\boldsymbol{e}_{k+1} = \gamma P\,\boldsymbol{e}_k.$

该递推关系与最初的一维例子 $x_{k+1} = 0.5\,x_k$ 结构相同，区别仅在于标量乘法替换为矩阵乘法 $\gamma P$ 。

$P$ 是转移概率矩阵，每行概率和为 $1$ ，所以它的谱半径（最大特征值的绝对值）满足 $\rho(P) \leq 1$ 。乘上折扣因子后：

$\rho(\gamma P) \leq \gamma < 1.$

于是 $\gamma P$ 的所有特征值绝对值都小于 $1$ 。误差在每个方向上都在缩小——贝尔曼更新必然收敛。

这就是第 3 章里 DP 方法"反复迭代直到收敛"背后的数学保证。 $\gamma < 1$ 不只是一个工程选择——它是收敛的数学前提。

$\gamma$ 大小对收敛速度的影响

$\gamma$ 不仅影响是否收敛，还影响收敛速度。

γ	ρ(γP)	收敛速度	含义
0.1	≤ 0.1	很快	只看眼前，价值很快稳定
0.5	≤ 0.5	较快	兼顾近期和远期
0.9	≤ 0.9	较慢	看得很远，需要更多迭代
0.99	≤ 0.99	很慢	非常重视远期回报

数值演示：假设初始误差 $\|\boldsymbol{e}_0\|=10$ ， $k$ 次迭代后的误差上界是：

迭代次数 k	γ=0.5 误差	γ=0.9 误差	γ=0.99 误差
1	5	9	9.9
5	0.31	5.9	9.51
10	0.01	3.49	9.04
50	≈ 0	0.005	6.05
100	≈ 0	≈ 0	3.66

$\gamma$ 越接近 $1$ ，收敛越慢，但最终结果越"看得远"。这就是 RL 中常见的"精度-效率权衡"。

压缩映射：收敛的形式化保证

特征值说明了"误差在每个方向上都在缩小"。数学上有一个更统一的方式来表述这一结论——压缩映射。可以证明贝尔曼算子 $\mathcal{T}\boldsymbol{v} = \boldsymbol{r} + \gamma P\boldsymbol{v}$ 满足：

$\|\mathcal{T}\boldsymbol{u} - \mathcal{T}\boldsymbol{v}\|_\infty \leq \gamma \|\boldsymbol{u}-\boldsymbol{v}\|_\infty.$

该不等式表明：做一次贝尔曼更新后，两个估计之间的差距最多收缩为原来的 $\gamma$ 倍。由于 $\gamma < 1$ ，差距严格递减。这意味着迭代有且仅有一个不动点——即目标价值函数 $\boldsymbol{v}^*$ 。

展开：Banach 不动点定理

压缩映射有一个优美的性质（Banach 不动点定理）：在完备度量空间中，压缩映射有且仅有一个不动点，且迭代收敛。 $\boldsymbol{v}^*$ 就是这个不动点。

定理的完整表述并非必需，核心结论在于： $\gamma < 1$ 是贝尔曼更新收敛的数学保证。如果 $\gamma = 1$ （不折扣），在某些情况下更新可能不收敛。

特征值从长期角度保证了迭代收敛，但收敛仅意味着反复迭代最终可达不动点，并不保证每一步的更新幅度受控。E.1.3 介绍的梯度裁剪用 L2 范数限制了每一步的最大步长，已经能防止大部分训练不稳定。但它存在一个盲区：不同方向上参数变化对策略分布的影响截然不同，而 L2 范数对所有方向一视同仁。要解决这一问题，需要将"均匀长度"升级为"加权长度"。

方向敏感性：从普通范数到信任域约束

普通距离的局限性

L2 范数的定义为：

$\|\boldsymbol{x}\|_2^2 = \boldsymbol{x}^\top \boldsymbol{x}.$

例如 $\boldsymbol{x} = [3, 4]^\top$ ，则 $\boldsymbol{x}^\top\boldsymbol{x} = 9 + 16 = 25$ 。L2 范数对每个方向同等对待——向右走 $1$ 步和向上走 $1$ 步，"长度"相同。

但在参数空间中，不同方向的安全风险不同。考虑两个参数更新方向：

方向 A： $\Delta\theta = [1, 0]^\top$

这个方向主要改变第一个参数。假设第一个参数控制的是"选择动作 left 的 logit"，变化 $1$ 个单位只会让概率从 $0.5$ 变到约 $0.73$ 。

方向 B： $\Delta\theta = [0, 1]^\top$

这个方向改变第二个参数。假设第二个参数控制的是"输出的尺度"，变化 $1$ 个单位可能让所有动作概率都剧烈变化。

两个方向的 L2 范数都是 $1$ ，但对策略分布的影响完全不同。用普通 L2 范数约束 $\|\Delta\theta\|_2 \leq \delta$ 无法区分这种差异。

加权范数：方向的差异化度量

为了区分不同方向的风险级别，引入矩阵 $F$ 定义一种加权长度，取代普通的 L2 范数：

$\|\boldsymbol{x}\|_F^2 = \boldsymbol{x}^\top F\,\boldsymbol{x}.$

看一个具体数字：

$F = \begin{bmatrix} 1 & 0 \\ 0 & 4 \end{bmatrix}, \qquad \boldsymbol{x} = \begin{bmatrix} 1 \\ 1 \end{bmatrix}.$

那么：

$\boldsymbol{x}^\top F\,\boldsymbol{x} = \begin{bmatrix} 1 & 1 \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 0 & 4 \end{bmatrix} \begin{bmatrix} 1 \\ 1 \end{bmatrix} = 1 \times 1 + 4 \times 1 = 5.$

第二个方向被权重 $4$ 放大，因此同样的步长在该方向上代价更高。矩阵 $F$ 的对角元素越大，对应方向上的移动被约束得越紧。

信任域约束

TRPO 的信任域约束具有以下形式：

$(\theta - \theta_{old})^\top F(\theta - \theta_{old}) \leq \delta.$

其中 $F$ 通常是 Fisher 信息矩阵。其直观含义是：参数更新不能仅看欧氏距离，还需考虑这一步会让策略分布变化多大。如果某个方向会使策略分布急剧变化， $F$ 会将该方向的步长压小；如果某个方向对策略分布影响甚微， $F$ 则允许更大的步长。

Fisher 信息矩阵 $F$ 的 $(i,j)$ 元素为：

$F_{ij} = \mathbb{E}_\pi\left[\frac{\partial \log \pi_\theta(a\mid s)}{\partial \theta_i}\frac{\partial \log \pi_\theta(a\mid s)}{\partial \theta_j}\right].$

$F$ 的核心作用是将参数空间中的距离映射为策略分布空间中的距离——前者是欧氏几何，后者是信息几何。

从 TRPO 到 PPO：精确约束与近似约束

TRPO 直接求解带二次约束的优化问题，计算量大（需要计算 Fisher 矩阵及其逆）。PPO 作为工业界主流的 RL 算法，采用简化策略：

不显式计算 $F$ ，而是用概率比 $r_t(\theta) = \pi_\theta(a_t\mid s_t)/\pi_{old}(a_t\mid s_t)$ 间接度量策略变化。
不解约束优化，而是用裁剪 clip(r_t, 1-\epsilon, 1+\epsilon) 硬约束概率比的偏离幅度。

从普通范数到信任域的演进路径为：

$\|\Delta\theta\|_2^2 = \Delta\theta^\top \Delta\theta \quad\longrightarrow\quad \Delta\theta^\top F\,\Delta\theta \leq \delta \quad\longrightarrow\quad \text{clip}(r_t,\; 1-\epsilon,\; 1+\epsilon)$

每一步的目标一致——限制策略变化幅度——仅在精确度与计算成本之间做出不同权衡。

常见误区

TRPO 的信任域约束不是限制参数的欧氏距离，而是限制参数变化对策略分布的影响。同样的 $\|\Delta\theta\|_2 = 0.1$ ，在不同方向上可能导致完全不同的策略变化。

三个层面的全景

将本篇的三个工具放在一起，它们从三个层面回答同一个核心问题——如何保证训练过程的稳定性：

层面	问题	工具	公式
长期	迭代收敛性	特征值、谱半径	ρ(γP) ≤ γ < 1
短期	单步幅度控制	L2 范数、梯度裁剪	‖g_clipped‖₂ ≤ c
精细化	方向敏感性	加权范数、信任域	ΔθᵀFΔθ ≤ δ

三个层面的递进关系：特征值从长期角度保证迭代收敛，范数从短期角度限制单步更新幅度，加权范数从精细化角度区分不同方向的风险。约束越来越精确，计算成本也越来越高。

E.1 模块全景：四篇文章的逻辑链

本文是 E.1 模块的最后一篇正文。四篇文章围绕同一个核心问题展开：贝尔曼方程 $V(s) = R(s) + \gamma\sum P V(s')$ 是否能够被真正求解？ 求解过程中依次面临三个障碍，每个障碍引入一组新的数学工具：

第3章的贝尔曼方程
  │
  ▼ 障碍一：方程数量过多，无法逐一写出
E.1.1 + E.1.2  向量、矩阵、线性方程组
  │  → v = r + γPv  一次性写出所有方程
  │  → v = (I-γP)⁻¹r  一步解出
  │  但状态太多时，矩阵无法存储
  ▼ 障碍二：状态数量过大，矩阵无法存储
E.1.3  点积、范数、函数近似
  │  → ŵ(s) = wᵀx(s)  用点积近似
  │  → ∥g∥₂ ≤ c  用范数限制更新
  │  但近似加迭代，训练是否稳定？
  ▼ 障碍三：近似与迭代的训练稳定性
E.1.4  特征值、加权范数、信任域
     → 三个层面：收敛保证 + 梯度裁剪 + 信任域

对应到 RL 中的核心问题：

问题	数学工具	RL 含义	出现在哪篇
如何表示状态和价值？	向量、矩阵	查表法的基础	E.1.1
如何压缩贝尔曼方程？	线性方程组	策略评估的理论基础	E.1.2
如何近似无法查表的价值？	点积、范数	函数近似和神经网络	E.1.3
为什么训练能稳定？	特征值、压缩映射	收敛保证	E.1.4
如何安全地更新策略？	加权范数、信任域	TRPO/PPO 的数学基础	E.1.4

下一篇：E.1.5 公式速查与练习 —— 回到第 3 章，用线性代数的视角重新审视已学过的 RL 概念。

1. CartPole 倒立摆

2. DPO 偏好微调

3. MDP 与价值函数

4. Q-Learning 与 DQN

5. 策略梯度与 REINFORCE

6. Actor-Critic

7. PPO

8. RLHF 全流程

9. 后训练对齐

10. Agentic RL

11. VLM 强化学习

12. 未来趋势

B. RL 工程实践

E. 强化学习的数学基础

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

E.1.4 收敛性、特征值与信任域

概述

收敛性：贝尔曼更新收敛的条件与保证

收敛性的直观来源：从一维到二维

特征值与特征向量

具体计算步骤

贝尔曼更新收敛性的特征值论证

$\gamma$ 大小对收敛速度的影响

压缩映射：收敛的形式化保证

方向敏感性：从普通范数到信任域约束

普通距离的局限性

加权范数：方向的差异化度量

信任域约束

从 TRPO 到 PPO：精确约束与近似约束

三个层面的全景

E.1 模块全景：四篇文章的逻辑链

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

E.1.4 收敛性、特征值与信任域 ​

概述 ​

收敛性：贝尔曼更新收敛的条件与保证 ​

收敛性的直观来源：从一维到二维 ​

特征值与特征向量 ​

具体计算步骤 ​

贝尔曼更新收敛性的特征值论证 ​

γ\gammaγ 大小对收敛速度的影响 ​

压缩映射：收敛的形式化保证 ​

方向敏感性：从普通范数到信任域约束 ​

普通距离的局限性 ​

加权范数：方向的差异化度量 ​

信任域约束 ​

从 TRPO 到 PPO：精确约束与近似约束 ​

三个层面的全景 ​

E.1 模块全景：四篇文章的逻辑链 ​

E.1.4 收敛性、特征值与信任域

概述

收敛性：贝尔曼更新收敛的条件与保证

收敛性的直观来源：从一维到二维

特征值与特征向量

具体计算步骤

贝尔曼更新收敛性的特征值论证

$\gamma$ 大小对收敛速度的影响

压缩映射：收敛的形式化保证

方向敏感性：从普通范数到信任域约束

普通距离的局限性

加权范数：方向的差异化度量

信任域约束

从 TRPO 到 PPO：精确约束与近似约束

三个层面的全景

E.1 模块全景：四篇文章的逻辑链