E.3 微积分与优化

训练一个强化学习智能体，本质上就是在调整参数——让平均回报越来越高，或者让预测误差越来越小。这件事的底层语言就是微积分：导数告诉我们"往哪走"，梯度告诉我们"每个参数该怎么动"，链式法则让这个信号穿过整张计算图一路传回去。

本节沿着这条线索展开。我们从函数和变化率出发，逐步过渡到导数、梯度、链式法则，再看这些工具如何在策略梯度、Taylor 近似、PPO 裁剪和 GRPO 归一化中发挥作用。

梯度更新示意图

本节路线

文章	数学节奏	强化学习中的作用
E.3.1 导数、梯度与链式法则	函数 → 导数 → 梯度 → 链式法则	理解参数如何影响目标函数
E.3.2 从梯度到策略梯度	log 概率梯度 → 回报加权 → 优势函数	推导“好动作概率上升”的更新方向
E.3.3 优化稳定性：PPO 与 Adam	概率比 → 裁剪 → 自适应步长	控制策略更新幅度和梯度噪声
E.3.4 推导工具：log trick 与 Taylor	对数导数技巧 → Taylor 展开 → 二阶直觉	看懂策略梯度和 PPO 的推导骨架
E.3.5 完整优化公式	PG、DQN、GAE、PPO、GRPO 完整表达	连接现代 RL 训练目标
E.3.6 小结、公式与练习	公式汇总 → 误区 → 练习	回顾并检查理解