第 3 章总结:强化学习理论基础
内容概述
本章围绕强化学习中的序列决策建模、回报定义、价值函数、贝尔曼方程、价值估计、策略优化和奖励设计展开。作为章末总结,本节汇总第 3.1 到 3.8 节的核心公式,并给出它们在本章理论结构中的位置。
本章的主要结论可以概括为八点:
- 强化学习问题可以用 MDP 五元组形式化描述。
- 智能体优化的是折扣累积回报,而不是单步即时奖励。
- 状态价值函数和动作价值函数分别评估状态与动作的长期回报。
- 贝尔曼方程给出了价值函数的递归结构。
- DP、MC、TD 是三类基本的价值估计方法。
- 参数化策略可以通过策略目标函数直接优化。
- 算法根据数据来源分为 On-policy/Off-policy 和 Online/Offline。
- 奖励函数决定学习问题本身,奖励设计会影响算法最终行为。
这些内容构成后续 DQN、策略梯度、Actor-Critic、PPO 以及大模型强化学习方法的共同理论基础。
核心公式索引(3.1-3.8)
下面集中列出第 3.1 到 3.8 节的核心公式。每条公式都标注名称、作用和对应讲解位置。
3.1 两台老虎机:RL 的最小问题
3.2 MDP:RL 的形式化框架
3.3 V(s) 与贝尔曼方程
3.4 DP、MC、TD
3.5 动作价值函数
3.6 策略目标
3.8 Reward Shaping
标量形式与矩阵形式对照
本章公式均采用逐状态(标量)形式。将所有状态排成向量、转移关系写成矩阵后, 个标量方程可压缩为一行矩阵方程。
符号约定
| 符号 | 维度 | 含义 | | -------------------- | ------------ | ---------------------------------------------------------------------- | --------- | ----------------------------------------- | | | | 所有状态的价值 | | | | 每个状态的期望即时奖励 | | | | 策略诱导的转移矩阵, | | | | 所有 对的 Q 值 | | | | 转移矩阵, | | | | 策略矩阵, |
对照总表
| 概念 | 逐状态形式(本章正文) | 矩阵形式 |
|---|---|---|
| 贝尔曼期望方程 | $\boldsymbol{v}\pi = \boldsymbol{r}\pi + \gamma P_\pi \boldsymbol{v}_\pi$ | |
| 贝尔曼最优方程 | $V^(s)=\max_a\left[R(s,a)+\gamma\sum_{s'}P(s'\mid s,a)V^(s')\right]$ | (逐行取 max) |
| 闭式解 | — | |
| V-Q 关系 | $\boldsymbol{v}\pi = \Pi\pi \boldsymbol{q}_\pi$ | |
| Q 贝尔曼期望 | $\boldsymbol{q}\pi = \boldsymbol{r} + \gamma P \Pi\pi \boldsymbol{q}_\pi$ | |
| Q 贝尔曼最优 | $Q^(s,a)=R(s,a)+\gamma\sum_{s'}P(s'\mid s,a)\max_{a'}Q^(s',a')$ | $\boldsymbol{q}* = \boldsymbol{r} + \gamma P \cdot\mathrm{rowmax}(\boldsymbol{q}*)$ |
| DP 策略评估 | $\boldsymbol{v}{k+1} = \boldsymbol{r}\pi + \gamma P_\pi \boldsymbol{v}_k$ |
MC 和 TD 基于采样更新单个状态,没有对应的矩阵形式。
从 Q 的矩阵形式推出 V 的矩阵形式
将 代入 ,两边左乘 :
Q 的矩阵形式保留了动作维度(策略平均由 单独完成),V 的矩阵形式已把策略平均融进了 和 ——这正是" 比 携带更细粒度信息"的矩阵语言表达。
公式之间的依赖关系
本章各公式并非相互独立,而是构成一组逐层递进的定义和推论。
| 层级 | 核心问题 | 关键对象 |
|---|---|---|
| 问题建模 | 环境、动作、反馈和未来权重是什么? | |
| 优化目标 | 如何度量一条轨迹从某时刻开始的长期回报? | |
| 行为规则 | 智能体在状态中如何选择动作? | 、、 |
| 状态评估 | 当前状态在长期意义下值多少? | |
| 递归结构 | 长期回报如何拆成一步奖励和未来价值? | 贝尔曼期望方程、贝尔曼最优方程 |
| 数据学习 | 在环境模型未知或难以完全枚举时如何估计价值? | DP、MC、TD、 |
| 动作评估 | 固定第一步动作后如何评估长期回报? | 、 |
| 策略优化 | 如何直接优化一个参数化策略? | 、 |
| 目标设计 | 算法所最大化的奖励信号是什么? | 、、 |
上述层级体现了本章的逻辑顺序:环境定义先于回报定义,回报定义先于价值定义;价值递推是 DP、MC、TD 的基础;状态价值和动作价值为策略改进提供依据;奖励信号则决定所有优化目标的具体含义。
本章的主线推导
1. 从回报到贝尔曼递推
第 3 章最重要的数学结构是递归性。折扣回报可写为无限求和:
该表达式也可等价写成一步递推形式:
该递推形式将长期回报分解为当前即时奖励与下一时刻回报。贝尔曼方程正是将这一轨迹层面的递推关系推广到期望价值 。
2. 从状态价值到采样学习
若环境模型 和 已知,可以直接使用贝尔曼期望方程进行 DP 更新。若模型未知,则需要基于采样轨迹进行价值估计:
- MC 使用完整回报 作为目标,估计无偏但方差高。
- TD 使用 作为自举目标,方差低且可以在线更新。
- TD Error 衡量当前价值估计与一步贝尔曼目标之间的差距。
这一思想构成后续 Critic、DQN target、GAE 等技术的基础。
3. 从状态价值到动作价值
评估状态价值,但不直接给出状态 下各动作的相对优劣。为刻画动作层面的长期回报,第 3.5 节引入动作价值:
该定义固定第一步动作,并评估随后按照策略 行动所得的长期回报。因此, 函数比 函数包含更直接的动作选择信息。当最优动作价值 已知时,最优策略可由 诱导得到。
4. 从策略表示到策略优化
第 3.6 节给出另一种策略学习表述:不必先显式学习每个动作的价值,也可以将策略表示为带参数的分布 ,并最大化:
策略梯度公式表明,参数更新方向由两部分组成: 描述提高当前动作概率的参数方向, 则为该方向提供回报权重。第 5 章将对这一结果作进一步推导。
5. 奖励函数决定优化问题本身
所有价值函数、策略目标和更新规则最终都依赖于奖励的累积和。奖励过于稀疏会导致学习信号不足;奖励设计不当则可能使智能体优化偏离任务意图。第 3.8 节讨论的奖励塑形与内在奖励,均用于在增强学习信号的同时尽量保持任务目标不变。
本章复习问题
完成本章学习后,应能够回答以下问题:
- 给定一个任务,如何写出它的 MDP 五元组?
参考答案
将任务表示为 。其中, 描述智能体可能处于的状态集合, 描述可选动作集合, 描述执行动作后的状态转移规律, 或 描述即时奖励, 描述未来奖励的折扣权重。写 MDP 时,应说明每个要素在具体任务中的含义,而不仅是列出符号。
- 为什么 RL 优化的是折扣累积回报,而不只是即时奖励?
参考答案
强化学习研究的是序列决策。某一步动作不仅影响当前奖励,也会改变后续状态,从而影响未来可获得的奖励。因此,优化即时奖励可能导致短视策略。折扣累积回报
将当前及未来奖励统一为一个长期目标,并通过 控制未来奖励的重要程度。在无限期任务中, 还可保证回报有限。
- 、、、 分别在评估什么?
参考答案
是从时刻 开始沿某一条具体轨迹得到的折扣累积回报。 是从状态 出发并按照策略 行动时, 的期望,用于评估状态价值。 是在状态 先执行动作 ,之后按照策略 行动时, 的期望,用于评估动作价值。 是参数化策略 的总体期望回报,用于衡量并优化整个策略。
- 贝尔曼期望方程和贝尔曼最优方程有什么区别?
参考答案
贝尔曼期望方程用于评估给定策略 ,其动作选择由 加权平均:
贝尔曼最优方程用于定义最优价值,它不再固定某个策略,而是在所有动作中取最大值:
前者回答“按照该策略行动时价值是多少”,后者回答“在最优行动下价值最高是多少”。
- DP、MC、TD 分别需要什么信息,什么时候更新,误差来源是什么?
参考答案
DP 需要已知环境模型 和 ,通过对所有可能动作和下一状态求期望进行更新,误差主要来自迭代尚未收敛或函数近似误差。MC 不需要环境模型,但需要等一条 episode 结束后用完整回报 更新;它以真实回报为目标,估计无偏,但方差较高。TD 不需要环境模型,也不必等 episode 结束,走一步即可用 更新;它方差较低,但由于使用估计值 自举,会引入偏差。
- TD Error 为什么会成为后续 Critic、DQN 和 GAE 的共同学习信号?
参考答案
TD Error
衡量当前价值估计与一步贝尔曼目标之间的差距。Critic 可以用它更新状态价值函数;DQN 使用同样的自举思想构造 Q 函数的训练目标;GAE 则将多个时间步的 TD Error 加权累积,用于估计优势函数。因此,TD Error 是将贝尔曼递推转化为可采样训练信号的基本形式。
- 为什么 能直接诱导动作选择?
参考答案
表示在状态 选择动作 后的长期期望回报。若已知各动作的动作价值,则可直接比较同一状态下不同动作的 值。最优动作价值 已知时,最优策略可写为
因此, 函数不仅评估动作,还可通过最大化动作价值直接给出动作选择规则。
- 为什么参数化策略需要目标函数 ?
参考答案
参数化策略 的学习对象是参数 。为了优化这些参数,需要定义一个以 为自变量的目标函数:
衡量当前策略的期望长期回报。策略梯度方法通过估计 来调整参数,使高回报轨迹中的动作概率增大,从而改进策略。
- 奖励塑形为什么可能加速学习,又为什么可能带来目标偏移?
参考答案
奖励塑形通过增加中间奖励,使智能体在尚未到达最终目标前也能获得学习信号,因此可缓解稀疏奖励导致的学习困难。例如,距离目标更近时给予额外奖励,可以引导探索方向。但若塑形奖励设计不当,智能体可能优化塑形信号而非原始任务目标,产生目标偏移。势函数塑形
在理论上可保持最优策略不变,因此是一类较安全的奖励塑形形式。
上述问题强调公式背后的概念角色。掌握本章内容的关键,不仅在于记忆公式形式,还在于理解每个对象在强化学习问题中的功能。
后续章节如何使用本章公式
| 后续章节 | 主要使用的本章对象 | 用法 |
|---|---|---|
| 第 4 章 Q-Learning 与 DQN | 、、、TD Target | 学习动作价值,用自举目标更新 Q 函数 |
| 第 5 章策略梯度 | 、、、 | 直接优化参数化策略,提高高回报动作概率 |
| 第 6 章 Actor-Critic | 、TD Error、 | 用价值函数作为 Critic,为策略更新提供低方差信号 |
| 第 7 章 PPO | 、优势函数、TD Error、策略目标 | 用 Critic 估计优势,并约束策略更新幅度 |
| 第 8 章以后大模型 RL | 策略、奖励、回报、目标函数 | 把 token 生成看作序列决策,把偏好或验证信号转成优化目标 |
因此,第 3 章中的公式不仅用于本章练习,也将在后续算法中反复出现。随着模型从表格表示过渡到函数近似,这些对象将以神经网络、损失函数、训练目标、优势函数和 KL 约束等形式重新出现。
小结
第 3 章建立了强化学习理论基础的基本结构:
- 用 MDP 五元组定义序列决策问题。
- 用折扣累积回报 定义长期优化目标。
- 用 和 评估状态与动作。
- 用贝尔曼方程揭示价值的递归结构。
- 用 DP、MC、TD 说明价值可以如何被计算或估计。
- 用 将参数化策略学习表述为优化问题。
- 用奖励设计说明优化目标从何而来,以及为什么目标定义本身会影响学习结果。
- 掌握从数据获取维度区分算法(On/Off-policy, Online/Offline)。
下一章将从 出发,进入第一个完整算法族:第 4 章:Q-Learning 到 DQN。