Skip to content

E.3 微积分与优化

训练一个强化学习智能体,本质上就是在调整参数——让平均回报越来越高,或者让预测误差越来越小。这件事的底层语言就是微积分:导数告诉我们"往哪走",梯度告诉我们"每个参数该怎么动",链式法则让这个信号穿过整张计算图一路传回去。

本节沿着这条线索展开。我们从函数和变化率出发,逐步过渡到导数、梯度、链式法则,再看这些工具如何在策略梯度、Taylor 近似、PPO 裁剪和 GRPO 归一化中发挥作用。

梯度更新示意图

本节路线

文章数学节奏强化学习中的作用
E.3.1 导数、梯度与链式法则函数 → 导数 → 梯度 → 链式法则理解参数如何影响目标函数
E.3.2 从梯度到策略梯度log 概率梯度 → 回报加权 → 优势函数推导“好动作概率上升”的更新方向
E.3.3 优化稳定性:PPO 与 Adam概率比 → 裁剪 → 自适应步长控制策略更新幅度和梯度噪声
E.3.4 推导工具:log trick 与 Taylor对数导数技巧 → Taylor 展开 → 二阶直觉看懂策略梯度和 PPO 的推导骨架
E.3.5 完整优化公式PG、DQN、GAE、PPO、GRPO 完整表达连接现代 RL 训练目标
E.3.6 小结、公式与练习公式汇总 → 误区 → 练习回顾并检查理解

Built for reusable bilingual course delivery