Skip to content

E.1.4 收敛性、特征值与信任域

前置知识E.1.2 贝尔曼矩阵形式——需了解贝尔曼方程的矩阵形式 v=r+γPv\boldsymbol{v} = \boldsymbol{r} + \gamma P\boldsymbol{v}E.1.3 点积与范数——需了解 L2 范数的定义。


概述

前两篇推导了贝尔曼方程的矩阵形式 v=r+γPv\boldsymbol{v} = \boldsymbol{r} + \gamma P\boldsymbol{v},也讨论了函数近似。两者有一个共同的前提:训练过程要反复应用更新规则。不管是值迭代 vk+1=r+γPvkv_{k+1} = r + \gamma P v_k 还是 SGD 更新权重 wwαg\boldsymbol{w} \leftarrow \boldsymbol{w} - \alpha \boldsymbol{g},都在反复迭代。

上一篇结尾留下了两个待解决的问题:

  1. 反复迭代 vk+1=r+γPvkv_{k+1} = r + \gamma P v_k如何保证迭代序列收敛,而非持续震荡或发散?
  2. 策略参数更新时,梯度裁剪限制了每一步的步长上限,但不同参数方向上同样的步长对策略分布的影响截然不同——这一问题需要更精细的约束机制。

这两个问题的答案涉及三个数学工具,分别从长期、短期和精细化三个层面保证训练的稳定性。本篇将建立以下三个核心结论:

特征值保证收敛

ρ(γP)γ<1ekγke00\boxed{\rho(\gamma P) \leq \gamma < 1 \quad\Longrightarrow\quad \|\boldsymbol{e}_{k}\| \leq \gamma^k \|\boldsymbol{e}_0\| \to 0}

范数限制单步幅度

gclipped2=min ⁣(g2,  c)\boxed{\|\boldsymbol{g}_{clipped}\|_2 = \min\!\left(\|\boldsymbol{g}\|_2,\; c\right)}

加权范数实现方向敏感的安全更新

ΔθFΔθδ\boxed{\Delta\theta^\top F\,\Delta\theta \leq \delta}

以下逐一展开分析。


收敛性:贝尔曼更新收敛的条件与保证

收敛性的直观来源:从一维到二维

先看一个简单的数字变换:

xk+1=0.5xk.x_{k+1} = 0.5\,x_k.

如果 x0=8x_0=8,那么 84210.58 \to 4 \to 2 \to 1 \to 0.5 \to \cdots。因为每一步都乘以 0.50.5(绝对值小于 11),最终收敛到 00

现在换成二维。一个变换把向量的两个分量分别乘以 0.50.50.30.3

A=[0.5000.3].A = \begin{bmatrix} 0.5 & 0 \\ 0 & 0.3 \end{bmatrix}.

那么 AkA^k 把第一个分量乘以 0.5k0.5^k,第二个分量乘以 0.3k0.3^k。随着 kk 增大,两个分量都趋于 00

关键观察:这个变换在两个方向上分别缩放 0.50.50.30.30.50.50.30.3 就是这个矩阵的特征值

特征值与特征向量

更一般地,如果存在非零向量 u\boldsymbol{u} 和标量 λ\lambda,使得:

Au=λu,A\boldsymbol{u} = \lambda \boldsymbol{u},

那么 u\boldsymbol{u} 是矩阵 AA特征向量λ\lambda 是对应的特征值。换言之:矩阵 AA 作用在 u\boldsymbol{u} 上时,不改变该向量的方向,只将其长度缩放 λ\lambda 倍。

具体计算步骤

以下先通过一般矩阵演示特征值的计算方法,再将结论应用于贝尔曼更新,说明变换矩阵 γP\gamma P 的特征值为何必然小于 11

看一个 2×22\times2 矩阵:

A=[4123].A = \begin{bmatrix} 4 & 1 \\ 2 & 3 \end{bmatrix}.

特征值满足特征方程 det(AλI)=0\det(A - \lambda I) = 0

det[4λ123λ]=0.\det\begin{bmatrix} 4-\lambda & 1 \\ 2 & 3-\lambda \end{bmatrix} = 0.

展开:

(4λ)(3λ)2=0λ27λ+10=0.(4-\lambda)(3-\lambda) - 2 = 0 \quad\Longrightarrow\quad \lambda^2 - 7\lambda + 10 = 0.

解这个二次方程:

λ=7±49402=7±32.\lambda = \frac{7 \pm \sqrt{49-40}}{2} = \frac{7 \pm 3}{2}.

所以 λ1=5\lambda_1 = 5λ2=2\lambda_2 = 2。几何含义:在这个矩阵的作用下,某些方向的向量被缩放 55 倍,另一些方向被缩放 22 倍。反复应用 AA 时,λ1=5\lambda_1 = 5 方向的增长会主导。

由此可直接得出:如果一个矩阵的最大特征值绝对值大于 11,反复应用会让向量越来越大(发散);如果小于 11,向量会越来越小(收敛)。

贝尔曼更新收敛性的特征值论证

一维情况下乘以 0.50.5 会收敛,二维情况下当所有特征值绝对值均小于 11 时同样收敛。这一结论可直接应用于贝尔曼更新。

vk+1=r+γPvk.\boldsymbol{v}_{k+1} = \boldsymbol{r} + \gamma P\boldsymbol{v}_k.

假设真实解是 v\boldsymbol{v}^*,满足 v=r+γPv\boldsymbol{v}^* = \boldsymbol{r} + \gamma P\boldsymbol{v}^*。两式相减,得到误差递推:

vk+1v=γP(vkv).\boldsymbol{v}_{k+1} - \boldsymbol{v}^* = \gamma P(\boldsymbol{v}_k - \boldsymbol{v}^*).

令误差 ek=vkv\boldsymbol{e}_k = \boldsymbol{v}_k - \boldsymbol{v}^*,则:

ek+1=γPek.\boldsymbol{e}_{k+1} = \gamma P\,\boldsymbol{e}_k.

该递推关系与最初的一维例子 xk+1=0.5xkx_{k+1} = 0.5\,x_k 结构相同,区别仅在于标量乘法替换为矩阵乘法 γP\gamma P

PP 是转移概率矩阵,每行概率和为 11,所以它的谱半径(最大特征值的绝对值)满足 ρ(P)1\rho(P) \leq 1。乘上折扣因子后:

ρ(γP)γ<1.\rho(\gamma P) \leq \gamma < 1.

于是 γP\gamma P 的所有特征值绝对值都小于 11。误差在每个方向上都在缩小——贝尔曼更新必然收敛

这就是第 3 章里 DP 方法"反复迭代直到收敛"背后的数学保证。γ<1\gamma < 1 不只是一个工程选择——它是收敛的数学前提。

γ\gamma 大小对收敛速度的影响

γ\gamma 不仅影响是否收敛,还影响收敛速度。

γρ(γP)收敛速度含义
0.1≤ 0.1很快只看眼前,价值很快稳定
0.5≤ 0.5较快兼顾近期和远期
0.9≤ 0.9较慢看得很远,需要更多迭代
0.99≤ 0.99很慢非常重视远期回报

数值演示:假设初始误差 e0=10\|\boldsymbol{e}_0\|=10kk 次迭代后的误差上界是:

迭代次数 kγ=0.5 误差γ=0.9 误差γ=0.99 误差
1599.9
50.315.99.51
100.013.499.04
50≈ 00.0056.05
100≈ 0≈ 03.66

γ\gamma 越接近 11,收敛越慢,但最终结果越"看得远"。这就是 RL 中常见的"精度-效率权衡"。

压缩映射:收敛的形式化保证

特征值说明了"误差在每个方向上都在缩小"。数学上有一个更统一的方式来表述这一结论——压缩映射。可以证明贝尔曼算子 Tv=r+γPv\mathcal{T}\boldsymbol{v} = \boldsymbol{r} + \gamma P\boldsymbol{v} 满足:

TuTvγuv.\|\mathcal{T}\boldsymbol{u} - \mathcal{T}\boldsymbol{v}\|_\infty \leq \gamma \|\boldsymbol{u}-\boldsymbol{v}\|_\infty.

该不等式表明:做一次贝尔曼更新后,两个估计之间的差距最多收缩为原来的 γ\gamma。由于 γ<1\gamma < 1,差距严格递减。这意味着迭代有且仅有一个不动点——即目标价值函数 v\boldsymbol{v}^*

展开:Banach 不动点定理

压缩映射有一个优美的性质(Banach 不动点定理):在完备度量空间中,压缩映射有且仅有一个不动点,且迭代收敛。v\boldsymbol{v}^* 就是这个不动点。

定理的完整表述并非必需,核心结论在于:γ<1\gamma < 1 是贝尔曼更新收敛的数学保证。如果 γ=1\gamma = 1(不折扣),在某些情况下更新可能不收敛。


特征值从长期角度保证了迭代收敛,但收敛仅意味着反复迭代最终可达不动点,并不保证每一步的更新幅度受控。E.1.3 介绍的梯度裁剪用 L2 范数限制了每一步的最大步长,已经能防止大部分训练不稳定。但它存在一个盲区:不同方向上参数变化对策略分布的影响截然不同,而 L2 范数对所有方向一视同仁。要解决这一问题,需要将"均匀长度"升级为"加权长度"。


方向敏感性:从普通范数到信任域约束

普通距离的局限性

L2 范数的定义为:

x22=xx.\|\boldsymbol{x}\|_2^2 = \boldsymbol{x}^\top \boldsymbol{x}.

例如 x=[3,4]\boldsymbol{x} = [3, 4]^\top,则 xx=9+16=25\boldsymbol{x}^\top\boldsymbol{x} = 9 + 16 = 25。L2 范数对每个方向同等对待——向右走 11 步和向上走 11 步,"长度"相同。

但在参数空间中,不同方向的安全风险不同。考虑两个参数更新方向:

方向 AΔθ=[1,0]\Delta\theta = [1, 0]^\top

这个方向主要改变第一个参数。假设第一个参数控制的是"选择动作 left 的 logit",变化 11 个单位只会让概率从 0.50.5 变到约 0.730.73

方向 BΔθ=[0,1]\Delta\theta = [0, 1]^\top

这个方向改变第二个参数。假设第二个参数控制的是"输出的尺度",变化 11 个单位可能让所有动作概率都剧烈变化。

两个方向的 L2 范数都是 11,但对策略分布的影响完全不同。用普通 L2 范数约束 Δθ2δ\|\Delta\theta\|_2 \leq \delta 无法区分这种差异。

加权范数:方向的差异化度量

为了区分不同方向的风险级别,引入矩阵 FF 定义一种加权长度,取代普通的 L2 范数:

xF2=xFx.\|\boldsymbol{x}\|_F^2 = \boldsymbol{x}^\top F\,\boldsymbol{x}.

看一个具体数字:

F=[1004],x=[11].F = \begin{bmatrix} 1 & 0 \\ 0 & 4 \end{bmatrix}, \qquad \boldsymbol{x} = \begin{bmatrix} 1 \\ 1 \end{bmatrix}.

那么:

xFx=[11][1004][11]=1×1+4×1=5.\boldsymbol{x}^\top F\,\boldsymbol{x} = \begin{bmatrix} 1 & 1 \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 0 & 4 \end{bmatrix} \begin{bmatrix} 1 \\ 1 \end{bmatrix} = 1 \times 1 + 4 \times 1 = 5.

第二个方向被权重 44 放大,因此同样的步长在该方向上代价更高。矩阵 FF 的对角元素越大,对应方向上的移动被约束得越紧。

信任域约束

TRPO 的信任域约束具有以下形式:

(θθold)F(θθold)δ.(\theta - \theta_{old})^\top F(\theta - \theta_{old}) \leq \delta.

其中 FF 通常是 Fisher 信息矩阵。其直观含义是:参数更新不能仅看欧氏距离,还需考虑这一步会让策略分布变化多大。如果某个方向会使策略分布急剧变化,FF 会将该方向的步长压小;如果某个方向对策略分布影响甚微,FF 则允许更大的步长。

Fisher 信息矩阵 FF(i,j)(i,j) 元素为:

Fij=Eπ[logπθ(as)θilogπθ(as)θj].F_{ij} = \mathbb{E}_\pi\left[\frac{\partial \log \pi_\theta(a\mid s)}{\partial \theta_i}\frac{\partial \log \pi_\theta(a\mid s)}{\partial \theta_j}\right].

FF 的核心作用是将参数空间中的距离映射为策略分布空间中的距离——前者是欧氏几何,后者是信息几何。

从 TRPO 到 PPO:精确约束与近似约束

TRPO 直接求解带二次约束的优化问题,计算量大(需要计算 Fisher 矩阵及其逆)。PPO 作为工业界主流的 RL 算法,采用简化策略:

  • 不显式计算 FF,而是用概率比 rt(θ)=πθ(atst)/πold(atst)r_t(\theta) = \pi_\theta(a_t\mid s_t)/\pi_{old}(a_t\mid s_t) 间接度量策略变化。
  • 不解约束优化,而是用裁剪 clip(r_t, 1-\epsilon, 1+\epsilon) 硬约束概率比的偏离幅度。

从普通范数到信任域的演进路径为:

Δθ22=ΔθΔθΔθFΔθδclip(rt,  1ϵ,  1+ϵ)\|\Delta\theta\|_2^2 = \Delta\theta^\top \Delta\theta \quad\longrightarrow\quad \Delta\theta^\top F\,\Delta\theta \leq \delta \quad\longrightarrow\quad \text{clip}(r_t,\; 1-\epsilon,\; 1+\epsilon)

每一步的目标一致——限制策略变化幅度——仅在精确度与计算成本之间做出不同权衡。

常见误区

TRPO 的信任域约束不是限制参数的欧氏距离,而是限制参数变化对策略分布的影响。同样的 Δθ2=0.1\|\Delta\theta\|_2 = 0.1,在不同方向上可能导致完全不同的策略变化。


三个层面的全景

将本篇的三个工具放在一起,它们从三个层面回答同一个核心问题——如何保证训练过程的稳定性:

层面问题工具公式
长期迭代收敛性特征值、谱半径ρ(γP) ≤ γ < 1
短期单步幅度控制L2 范数、梯度裁剪g_clipped‖₂ ≤ c
精细化方向敏感性加权范数、信任域ΔθᵀFΔθ ≤ δ

三个层面的递进关系:特征值从长期角度保证迭代收敛,范数从短期角度限制单步更新幅度,加权范数从精细化角度区分不同方向的风险。约束越来越精确,计算成本也越来越高。


E.1 模块全景:四篇文章的逻辑链

本文是 E.1 模块的最后一篇正文。四篇文章围绕同一个核心问题展开:贝尔曼方程 V(s)=R(s)+γPV(s)V(s) = R(s) + \gamma\sum P V(s') 是否能够被真正求解? 求解过程中依次面临三个障碍,每个障碍引入一组新的数学工具:

第3章的贝尔曼方程

  ▼ 障碍一:方程数量过多,无法逐一写出
E.1.1 + E.1.2  向量、矩阵、线性方程组
  │  → v = r + γPv  一次性写出所有方程
  │  → v = (I-γP)⁻¹r  一步解出
  │  但状态太多时,矩阵无法存储
  ▼ 障碍二:状态数量过大,矩阵无法存储
E.1.3  点积、范数、函数近似
  │  → ŵ(s) = wᵀx(s)  用点积近似
  │  → ∥g∥₂ ≤ c  用范数限制更新
  │  但近似加迭代,训练是否稳定?
  ▼ 障碍三:近似与迭代的训练稳定性
E.1.4  特征值、加权范数、信任域
     → 三个层面:收敛保证 + 梯度裁剪 + 信任域

对应到 RL 中的核心问题:

问题数学工具RL 含义出现在哪篇
如何表示状态和价值?向量、矩阵查表法的基础E.1.1
如何压缩贝尔曼方程?线性方程组策略评估的理论基础E.1.2
如何近似无法查表的价值?点积、范数函数近似和神经网络E.1.3
为什么训练能稳定?特征值、压缩映射收敛保证E.1.4
如何安全地更新策略?加权范数、信任域TRPO/PPO 的数学基础E.1.4

下一篇E.1.5 公式速查与练习 —— 回到第 3 章,用线性代数的视角重新审视已学过的 RL 概念。

Built for reusable bilingual course delivery