E.1.4 收敛性、特征值与信任域
前置知识:E.1.2 贝尔曼矩阵形式——需了解贝尔曼方程的矩阵形式 。E.1.3 点积与范数——需了解 L2 范数的定义。
概述
前两篇推导了贝尔曼方程的矩阵形式 ,也讨论了函数近似。两者有一个共同的前提:训练过程要反复应用更新规则。不管是值迭代 还是 SGD 更新权重 ,都在反复迭代。
上一篇结尾留下了两个待解决的问题:
- 反复迭代 ,如何保证迭代序列收敛,而非持续震荡或发散?
- 策略参数更新时,梯度裁剪限制了每一步的步长上限,但不同参数方向上同样的步长对策略分布的影响截然不同——这一问题需要更精细的约束机制。
这两个问题的答案涉及三个数学工具,分别从长期、短期和精细化三个层面保证训练的稳定性。本篇将建立以下三个核心结论:
特征值保证收敛
范数限制单步幅度
加权范数实现方向敏感的安全更新
以下逐一展开分析。
收敛性:贝尔曼更新收敛的条件与保证
收敛性的直观来源:从一维到二维
先看一个简单的数字变换:
如果 ,那么 。因为每一步都乘以 (绝对值小于 ),最终收敛到 。
现在换成二维。一个变换把向量的两个分量分别乘以 和 :
那么 把第一个分量乘以 ,第二个分量乘以 。随着 增大,两个分量都趋于 。
关键观察:这个变换在两个方向上分别缩放 和 倍。 和 就是这个矩阵的特征值。
特征值与特征向量
更一般地,如果存在非零向量 和标量 ,使得:
那么 是矩阵 的特征向量, 是对应的特征值。换言之:矩阵 作用在 上时,不改变该向量的方向,只将其长度缩放 倍。
具体计算步骤
以下先通过一般矩阵演示特征值的计算方法,再将结论应用于贝尔曼更新,说明变换矩阵 的特征值为何必然小于 。
看一个 矩阵:
特征值满足特征方程 :
展开:
解这个二次方程:
所以 ,。几何含义:在这个矩阵的作用下,某些方向的向量被缩放 倍,另一些方向被缩放 倍。反复应用 时, 方向的增长会主导。
由此可直接得出:如果一个矩阵的最大特征值绝对值大于 ,反复应用会让向量越来越大(发散);如果小于 ,向量会越来越小(收敛)。
贝尔曼更新收敛性的特征值论证
一维情况下乘以 会收敛,二维情况下当所有特征值绝对值均小于 时同样收敛。这一结论可直接应用于贝尔曼更新。
假设真实解是 ,满足 。两式相减,得到误差递推:
令误差 ,则:
该递推关系与最初的一维例子 结构相同,区别仅在于标量乘法替换为矩阵乘法 。
是转移概率矩阵,每行概率和为 ,所以它的谱半径(最大特征值的绝对值)满足 。乘上折扣因子后:
于是 的所有特征值绝对值都小于 。误差在每个方向上都在缩小——贝尔曼更新必然收敛。
这就是第 3 章里 DP 方法"反复迭代直到收敛"背后的数学保证。 不只是一个工程选择——它是收敛的数学前提。
大小对收敛速度的影响
不仅影响是否收敛,还影响收敛速度。
| γ | ρ(γP) | 收敛速度 | 含义 |
|---|---|---|---|
| 0.1 | ≤ 0.1 | 很快 | 只看眼前,价值很快稳定 |
| 0.5 | ≤ 0.5 | 较快 | 兼顾近期和远期 |
| 0.9 | ≤ 0.9 | 较慢 | 看得很远,需要更多迭代 |
| 0.99 | ≤ 0.99 | 很慢 | 非常重视远期回报 |
数值演示:假设初始误差 , 次迭代后的误差上界是:
| 迭代次数 k | γ=0.5 误差 | γ=0.9 误差 | γ=0.99 误差 |
|---|---|---|---|
| 1 | 5 | 9 | 9.9 |
| 5 | 0.31 | 5.9 | 9.51 |
| 10 | 0.01 | 3.49 | 9.04 |
| 50 | ≈ 0 | 0.005 | 6.05 |
| 100 | ≈ 0 | ≈ 0 | 3.66 |
越接近 ,收敛越慢,但最终结果越"看得远"。这就是 RL 中常见的"精度-效率权衡"。
压缩映射:收敛的形式化保证
特征值说明了"误差在每个方向上都在缩小"。数学上有一个更统一的方式来表述这一结论——压缩映射。可以证明贝尔曼算子 满足:
该不等式表明:做一次贝尔曼更新后,两个估计之间的差距最多收缩为原来的 倍。由于 ,差距严格递减。这意味着迭代有且仅有一个不动点——即目标价值函数 。
展开:Banach 不动点定理
压缩映射有一个优美的性质(Banach 不动点定理):在完备度量空间中,压缩映射有且仅有一个不动点,且迭代收敛。 就是这个不动点。
定理的完整表述并非必需,核心结论在于: 是贝尔曼更新收敛的数学保证。如果 (不折扣),在某些情况下更新可能不收敛。
特征值从长期角度保证了迭代收敛,但收敛仅意味着反复迭代最终可达不动点,并不保证每一步的更新幅度受控。E.1.3 介绍的梯度裁剪用 L2 范数限制了每一步的最大步长,已经能防止大部分训练不稳定。但它存在一个盲区:不同方向上参数变化对策略分布的影响截然不同,而 L2 范数对所有方向一视同仁。要解决这一问题,需要将"均匀长度"升级为"加权长度"。
方向敏感性:从普通范数到信任域约束
普通距离的局限性
L2 范数的定义为:
例如 ,则 。L2 范数对每个方向同等对待——向右走 步和向上走 步,"长度"相同。
但在参数空间中,不同方向的安全风险不同。考虑两个参数更新方向:
方向 A:
这个方向主要改变第一个参数。假设第一个参数控制的是"选择动作 left 的 logit",变化 个单位只会让概率从 变到约 。
方向 B:
这个方向改变第二个参数。假设第二个参数控制的是"输出的尺度",变化 个单位可能让所有动作概率都剧烈变化。
两个方向的 L2 范数都是 ,但对策略分布的影响完全不同。用普通 L2 范数约束 无法区分这种差异。
加权范数:方向的差异化度量
为了区分不同方向的风险级别,引入矩阵 定义一种加权长度,取代普通的 L2 范数:
看一个具体数字:
那么:
第二个方向被权重 放大,因此同样的步长在该方向上代价更高。矩阵 的对角元素越大,对应方向上的移动被约束得越紧。
信任域约束
TRPO 的信任域约束具有以下形式:
其中 通常是 Fisher 信息矩阵。其直观含义是:参数更新不能仅看欧氏距离,还需考虑这一步会让策略分布变化多大。如果某个方向会使策略分布急剧变化, 会将该方向的步长压小;如果某个方向对策略分布影响甚微, 则允许更大的步长。
Fisher 信息矩阵 的 元素为:
的核心作用是将参数空间中的距离映射为策略分布空间中的距离——前者是欧氏几何,后者是信息几何。
从 TRPO 到 PPO:精确约束与近似约束
TRPO 直接求解带二次约束的优化问题,计算量大(需要计算 Fisher 矩阵及其逆)。PPO 作为工业界主流的 RL 算法,采用简化策略:
- 不显式计算 ,而是用概率比 间接度量策略变化。
- 不解约束优化,而是用裁剪
clip(r_t, 1-\epsilon, 1+\epsilon)硬约束概率比的偏离幅度。
从普通范数到信任域的演进路径为:
每一步的目标一致——限制策略变化幅度——仅在精确度与计算成本之间做出不同权衡。
常见误区
TRPO 的信任域约束不是限制参数的欧氏距离,而是限制参数变化对策略分布的影响。同样的 ,在不同方向上可能导致完全不同的策略变化。
三个层面的全景
将本篇的三个工具放在一起,它们从三个层面回答同一个核心问题——如何保证训练过程的稳定性:
| 层面 | 问题 | 工具 | 公式 |
|---|---|---|---|
| 长期 | 迭代收敛性 | 特征值、谱半径 | ρ(γP) ≤ γ < 1 |
| 短期 | 单步幅度控制 | L2 范数、梯度裁剪 | ‖g_clipped‖₂ ≤ c |
| 精细化 | 方向敏感性 | 加权范数、信任域 | ΔθᵀFΔθ ≤ δ |
三个层面的递进关系:特征值从长期角度保证迭代收敛,范数从短期角度限制单步更新幅度,加权范数从精细化角度区分不同方向的风险。约束越来越精确,计算成本也越来越高。
E.1 模块全景:四篇文章的逻辑链
本文是 E.1 模块的最后一篇正文。四篇文章围绕同一个核心问题展开:贝尔曼方程 是否能够被真正求解? 求解过程中依次面临三个障碍,每个障碍引入一组新的数学工具:
第3章的贝尔曼方程
│
▼ 障碍一:方程数量过多,无法逐一写出
E.1.1 + E.1.2 向量、矩阵、线性方程组
│ → v = r + γPv 一次性写出所有方程
│ → v = (I-γP)⁻¹r 一步解出
│ 但状态太多时,矩阵无法存储
▼ 障碍二:状态数量过大,矩阵无法存储
E.1.3 点积、范数、函数近似
│ → ŵ(s) = wᵀx(s) 用点积近似
│ → ∥g∥₂ ≤ c 用范数限制更新
│ 但近似加迭代,训练是否稳定?
▼ 障碍三:近似与迭代的训练稳定性
E.1.4 特征值、加权范数、信任域
→ 三个层面:收敛保证 + 梯度裁剪 + 信任域对应到 RL 中的核心问题:
| 问题 | 数学工具 | RL 含义 | 出现在哪篇 |
|---|---|---|---|
| 如何表示状态和价值? | 向量、矩阵 | 查表法的基础 | E.1.1 |
| 如何压缩贝尔曼方程? | 线性方程组 | 策略评估的理论基础 | E.1.2 |
| 如何近似无法查表的价值? | 点积、范数 | 函数近似和神经网络 | E.1.3 |
| 为什么训练能稳定? | 特征值、压缩映射 | 收敛保证 | E.1.4 |
| 如何安全地更新策略? | 加权范数、信任域 | TRPO/PPO 的数学基础 | E.1.4 |
下一篇:E.1.5 公式速查与练习 —— 回到第 3 章,用线性代数的视角重新审视已学过的 RL 概念。