E.3.4 策略梯度、Taylor 与 GRPO 推导
前置知识:E.3.2 策略梯度与优势函数——你需要知道策略梯度的基本形式。
对数导数技巧如何推出策略梯度
前面我们一直在用策略梯度的结论,现在来看看它是怎么推导出来的。直接对策略概率 求梯度往往不好算—— 是由 softmax 等复杂函数生成的,梯度表达式很繁。对数导数技巧就是把难算的 转换成好算的 ,从而让梯度可以用采样的方式估计,而不需要知道环境的转移概率。策略梯度最常见的形式就是由这个技巧推导出来的:
其中 表示”按照策略 采样时的期望值”,也就是对所有可能的状态-动作对取加权平均,权重就是策略选择每个动作的概率。推导这个公式的关键是一个简单的恒等式:
两边乘以 ,就得到一个等价但更好用的形式:
这个变换的好处在于:直接对 求梯度往往不好算,但 的梯度通常很简单。接下来把这个技巧代入目标函数。在离散动作空间中,目标函数可以写成:
对参数求梯度时, 不依赖 ,只有 里有 :
把对数导数技巧代入,把 替换掉:
仔细看这个求和式:每一项都含 作为权重,这恰好是"按策略采样时的加权平均"——也就是期望:
上面只考虑了单个状态。如果对所有状态做加权平均(权重 是策略 下访问状态 的频率),就得到完整的策略梯度定理:
在实际算法中, 不容易精确知道,所以常用采样的累计回报 或优势估计 来替代:
这就是 REINFORCE、Actor-Critic 和 PPO 这些算法背后共同的梯度结构。
Taylor 展开、Hessian 与 PPO 的二阶直觉
梯度下降只看一阶导数——"当前位置的斜率",然后沿斜率方向走一步。但如果步子走得太大,一阶近似就会失准:你以为还在上坡,其实已经过了山顶开始下坡了。Taylor 展开就是用来分析"步子走多大时一阶近似还靠谱"的工具。一阶展开只看斜率,二阶展开额外考虑曲率(弯不弯、往哪个方向弯)。PPO 和 TRPO 背后的"信任域"思想,正是担心参数更新过大时一阶近似不再可靠——Taylor 展开帮助我们从数学上理解这件事。
看一个数字例子。令:
真实值是:
一阶近似是:
已经很接近了,差了 。二阶 Taylor 展开再加上一个曲率修正项:
对 ,,所以:
多变量时,二阶项中的 变成了 Hessian 矩阵 (它记录了函数在每个方向上的弯曲程度):
PPO 和 TRPO 背后的"信任域"思想,正是担心参数更新过大时,一阶近似不再可靠,二阶曲率项开始变得重要——此时如果还按一阶信息走大步,可能会把策略搞坏。
对 PPO 的概率比:
在 附近展开:
这里三项分别是:
| 项 | 含义 |
|---|---|
| 新旧策略相同时,概率比为 | |
| 一阶项 | 小步更新带来的线性变化 |
| 二阶项 | 步子变大后,曲率带来的额外变化 |
PPO 的裁剪虽然没有显式去算 Hessian,但它通过限制 的范围,间接避免了高阶项失控带来的风险。
GRPO 的组归一化
前面讲了策略梯度、PPO 裁剪和 Taylor 展开,这些方法都需要一个优势估计 。传统方法(如 PPO)用训练好的 Critic 网络来估计优势,但 Critic 网络本身也需要训练,增加了工程复杂度。GRPO 的核心想法是:不用 Critic,改用"同组回答之间的相对比较"来构造优势。 想象老师批改一道开放题:四个学生的得分放在一起,高于平均的给正向信号,低于平均的给负向信号,不用额外请一个"标准分评判员"。具体来说,假设同一个 prompt 采样 4 个回答,奖励分别是:
均值是:
标准差是:
第 4 个回答的标准化优势是:
一般形式是:
整个计算分两步:
- 减去均值:判断这个回答比组内平均好还是差。
- 除以标准差:把不同题目的奖励尺度拉平——有的题分数天然偏高,有的偏低,除以标准差后就可以跨题比较。
GRPO 之所以能省掉传统 PPO 里的 Critic 网络,正是因为它用组内相对比较来构造 baseline。它不关心”这个回答绝对多少分”,只关心”这个回答在同组里排得怎么样”。
小结
本篇介绍了三个推导工具:
| 工具 | 核心公式 | 作用 |
|---|---|---|
| 对数导数技巧 | 把概率梯度改成可采样的 log 形式 | |
| Taylor 展开 | 理解 PPO 信任域和裁剪的二阶直觉 | |
| GRPO 组归一化 | 用组内相对比较替代 Critic |
这三个工具分别对应策略梯度的推导骨架、更新幅度的理论依据、以及不用 Critic 的替代方案。下一篇把它们整理成完整的公式速查表。
下一篇:E.3.5 完整优化公式 —— PG、DQN、GAE、PPO、GRPO 完整公式速查。