E.3 微积分与优化
训练一个强化学习智能体,本质上就是在调整参数——让平均回报越来越高,或者让预测误差越来越小。这件事的底层语言就是微积分:导数告诉我们"往哪走",梯度告诉我们"每个参数该怎么动",链式法则让这个信号穿过整张计算图一路传回去。
本节沿着这条线索展开。我们从函数和变化率出发,逐步过渡到导数、梯度、链式法则,再看这些工具如何在策略梯度、Taylor 近似、PPO 裁剪和 GRPO 归一化中发挥作用。
本节路线
| 文章 | 数学节奏 | 强化学习中的作用 |
|---|---|---|
| E.3.1 导数、梯度与链式法则 | 函数 → 导数 → 梯度 → 链式法则 | 理解参数如何影响目标函数 |
| E.3.2 从梯度到策略梯度 | log 概率梯度 → 回报加权 → 优势函数 | 推导“好动作概率上升”的更新方向 |
| E.3.3 优化稳定性:PPO 与 Adam | 概率比 → 裁剪 → 自适应步长 | 控制策略更新幅度和梯度噪声 |
| E.3.4 推导工具:log trick 与 Taylor | 对数导数技巧 → Taylor 展开 → 二阶直觉 | 看懂策略梯度和 PPO 的推导骨架 |
| E.3.5 完整优化公式 | PG、DQN、GAE、PPO、GRPO 完整表达 | 连接现代 RL 训练目标 |
| E.3.6 小结、公式与练习 | 公式汇总 → 误区 → 练习 | 回顾并检查理解 |