3.9 本章总结:MDP、价值与策略
内容概述
本章围绕强化学习中的序列决策建模、回报定义、价值函数、贝尔曼方程、价值估计、Q-Learning、策略优化和奖励设计展开。作为章末总结,本节汇总第 3.1 到 3.8 节的核心公式,并给出它们在本章理论结构中的位置。
本章的主要结论可以概括为八点:
- 强化学习问题可以用 MDP 五元组形式化描述。
- 智能体优化的是折扣累积回报,而不是单步即时奖励。
- 状态价值函数和动作价值函数分别评估状态与动作的长期回报。
- 贝尔曼方程给出了价值函数的递归结构。
- DP、MC、TD 是三类基本的价值估计方法。
- 参数化策略可以通过策略目标函数直接优化。
- 算法根据数据来源分为 On-policy/Off-policy 和 Online/Offline。
- 奖励函数决定学习问题本身,奖励设计会影响算法最终行为。
这些内容构成后续深度 Q 网络、策略梯度、Actor-Critic、PPO 以及大模型强化学习方法的共同理论基础。
核心公式索引
下面集中列出第 3.1 到 3.8 节的核心公式。每条公式都标注名称、作用和对应讲解位置。
3.1 两台老虎机
3.2 MDP
3.3 V(s) 与贝尔曼方程
3.4 DP、MC、TD
3.5 Q(s,a)
3.5 Q-Learning
3.6 策略目标
3.8 奖励设计
标量与矩阵形式
本章公式均采用逐状态(标量)形式。将所有状态排成向量、转移关系写成矩阵后, 个标量方程可压缩为一行矩阵方程。
符号约定
为避免维度表达过长,下面用 表示状态数量,用 表示动作数量。
| 符号 | 维度 | 含义 |
|---|---|---|
| $\boldsymbol{v}_\pi$ | $n \times 1$ | 所有状态的价值 |
| $\boldsymbol{r}_\pi$ | $n \times 1$ | 每个状态的期望即时奖励 |
| $P_\pi$ | $n \times n$ | 策略诱导的转移矩阵,$P_\pi[i,j]=\sum_a \pi(a\mid s_i)p(s_j\mid s_i,a)$ |
| $\boldsymbol{q}_\pi$ | $nn_A \times 1$ | 所有 对的 Q 值 |
| $P$ | $nn_A \times n$ | 转移矩阵,$P[(s,a),s']=P(s'\mid s,a)$ |
| $\Pi_\pi$ | $n \times nn_A$ | 策略矩阵,$\Pi_\pi[s,(s,a)]=\pi(a\mid s)$ |
对照总表
贝尔曼期望方程
逐状态形式:
矩阵形式:
贝尔曼最优方程
逐状态形式:
矩阵形式:
闭式解
矩阵形式:
V-Q 关系
逐状态形式:
矩阵形式:
Q 贝尔曼期望方程
逐状态形式:
矩阵形式:
Q 贝尔曼最优方程
逐状态形式:
矩阵形式:
DP 策略评估
逐状态形式:
矩阵形式:
MC 和 TD 基于采样更新单个状态,没有对应的矩阵形式。
从 Q 到 V
将 代入 ,两边左乘 :
Q 的矩阵形式保留了动作维度(策略平均由 单独完成),V 的矩阵形式已把策略平均融进了 和 ——这正是" 比 携带更细粒度信息"的矩阵语言表达。
公式依赖关系
本章各公式并非相互独立,而是构成一组逐层递进的定义和推论。
| 层级 | 核心问题 | 关键对象 |
|---|---|---|
| 问题建模 | 环境、动作、反馈和未来权重是什么? | $\mathcal{M}=\langle\mathcal{S},\mathcal{A},P,R,\gamma\rangle$ |
| 优化目标 | 如何度量一条轨迹从某时刻开始的长期回报? | $G_t=\sum_{k=0}^{\infty}\gamma^k r_{t+k}$ |
| 行为规则 | 智能体在状态中如何选择动作? | 、、$\pi_\theta(a\mid s)$ |
| 状态评估 | 当前状态在长期意义下值多少? | $V^\pi(s)=\mathbb{E}_\pi[G_t\mid s_t=s]$ |
| 递归结构 | 长期回报如何拆成一步奖励和未来价值? | 贝尔曼期望方程、贝尔曼最优方程 |
| 数据学习 | 在环境模型未知或难以完全枚举时如何估计价值? | DP、MC、TD、$\delta$ |
| 动作评估 | 固定第一步动作后如何评估长期回报? | 、$Q^*(s,a)$ |
| 表格控制 | 如何用采样经验学习动作价值并导出策略? | Q-Learning、TD Target、-greedy |
| 策略优化 | 如何直接优化一个参数化策略? | 、$\nabla_\theta J(\theta)$ |
| 目标设计 | 算法所最大化的奖励信号是什么? | 、、$r_t^{\text{total}}$ |
上述层级体现了本章的逻辑顺序:环境定义先于回报定义,回报定义先于价值定义;价值递推是 DP、MC、TD 的基础;状态价值和动作价值为策略改进提供依据;奖励信号则决定所有优化目标的具体含义。
本章主线
从回报到贝尔曼递推
第 3 章最重要的数学结构是递归性。折扣回报可写为无限求和:
该表达式也可等价写成一步递推形式:
该递推形式将长期回报分解为当前即时奖励与下一时刻回报。贝尔曼方程正是将这一轨迹层面的递推关系推广到期望价值 。
从状态价值到采样学习
若环境模型 和 已知,可以直接使用贝尔曼期望方程进行 DP 更新。若模型未知,则需要基于采样轨迹进行价值估计:
- MC 使用完整回报 作为目标,估计无偏但方差高。
- TD 使用 作为自举目标,方差低且可以在线更新。
- TD Error 衡量当前价值估计与一步贝尔曼目标之间的差距。
这一思想构成后续 Critic、DQN target、GAE 等技术的基础。
从状态价值到动作价值
评估状态价值,但不直接给出状态 下各动作的相对优劣。为刻画动作层面的长期回报,第 3.5 节引入动作价值:
该定义固定第一步动作,并评估随后按照策略 行动所得的长期回报。因此, 函数比 函数包含更直接的动作选择信息。当最优动作价值 已知时,最优策略可由 诱导得到。
从动作价值到 Q-Learning
第 3.5 节将 TD 思想应用到动作价值表上。每一步经验 都可以构造 TD 目标:
并用它修正当前的 。这使智能体不需要完整环境模型,也不必等一条轨迹结束,就能逐步学习一张可用于决策的 Q 表。表格 Q-Learning 适合小规模离散状态空间;一旦状态空间巨大或连续,就需要第 4 章讨论的函数近似方法。
从策略表示到策略优化
第 3.6 节给出另一种策略学习表述:不必先显式学习每个动作的价值,也可以将策略表示为带参数的分布 ,并最大化:
策略梯度公式表明,参数更新方向由两部分组成: 描述提高当前动作概率的参数方向, 则为该方向提供回报权重。第 5 章将对这一结果作进一步推导。
奖励函数决定优化目标
所有价值函数、策略目标和更新规则最终都依赖于奖励的累积和。奖励过于稀疏会导致学习信号不足;奖励设计不当则可能使智能体优化偏离任务意图。第 3.8 节讨论的奖励塑形与内在奖励,均用于在增强学习信号的同时尽量保持任务目标不变。
本章复习问题
完成本章学习后,应能够回答以下问题:
- 给定一个任务,如何写出它的 MDP 五元组?
参考答案
将任务表示为 。其中, 描述智能体可能处于的状态集合, 描述可选动作集合, 描述执行动作后的状态转移规律, 或 描述即时奖励, 描述未来奖励的折扣权重。写 MDP 时,应说明每个要素在具体任务中的含义,而不仅是列出符号。
- 为什么 RL 优化的是折扣累积回报,而不只是即时奖励?
参考答案
强化学习研究的是序列决策。某一步动作不仅影响当前奖励,也会改变后续状态,从而影响未来可获得的奖励。因此,优化即时奖励可能导致短视策略。折扣累积回报
将当前及未来奖励统一为一个长期目标,并通过 控制未来奖励的重要程度。在无限期任务中, 还可保证回报有限。
- 、、、 分别在评估什么?
参考答案
是从时刻 开始沿某一条具体轨迹得到的折扣累积回报。 是从状态 出发并按照策略 行动时, 的期望,用于评估状态价值。 是在状态 先执行动作 ,之后按照策略 行动时, 的期望,用于评估动作价值。 是参数化策略 的总体期望回报,用于衡量并优化整个策略。
- 贝尔曼期望方程和贝尔曼最优方程有什么区别?
参考答案
贝尔曼期望方程用于评估给定策略 ,其动作选择由 加权平均:
贝尔曼最优方程用于定义最优价值,它不再固定某个策略,而是在所有动作中取最大值:
前者回答“按照该策略行动时价值是多少”,后者回答“在最优行动下价值最高是多少”。
- DP、MC、TD 分别需要什么信息,什么时候更新,误差来源是什么?
参考答案
DP 需要已知环境模型 和 ,通过对所有可能动作和下一状态求期望进行更新,误差主要来自迭代尚未收敛或函数近似误差。MC 不需要环境模型,但需要等一条 episode 结束后用完整回报 更新;它以真实回报为目标,估计无偏,但方差较高。TD 不需要环境模型,也不必等 episode 结束,走一步即可用 更新;它方差较低,但由于使用估计值 自举,会引入偏差。
- TD Error 为什么会成为后续 Critic、深度 Q 网络和 GAE 的共同学习信号?
参考答案
TD Error
衡量当前价值估计与一步贝尔曼目标之间的差距。Critic 可以用它更新状态价值函数;深度 Q 网络使用同样的自举思想构造 Q 函数的训练目标;GAE 则将多个时间步的 TD Error 加权累积,用于估计优势函数。因此,TD Error 是将贝尔曼递推转化为可采样训练信号的基本形式。
- 为什么 能直接诱导动作选择?
参考答案
表示在状态 选择动作 后的长期期望回报。若已知各动作的动作价值,则可直接比较同一状态下不同动作的 值。最优动作价值 已知时,最优策略可写为
因此, 函数不仅评估动作,还可通过最大化动作价值直接给出动作选择规则。
- 为什么参数化策略需要目标函数 ?
参考答案
参数化策略 的学习对象是参数 。为了优化这些参数,需要定义一个以 为自变量的目标函数:
衡量当前策略的期望长期回报。策略梯度方法通过估计 来调整参数,使高回报轨迹中的动作概率增大,从而改进策略。
- 奖励塑形为什么可能加速学习,又为什么可能带来目标偏移?
参考答案
奖励塑形通过增加中间奖励,使智能体在尚未到达最终目标前也能获得学习信号,因此可缓解稀疏奖励导致的学习困难。例如,距离目标更近时给予额外奖励,可以引导探索方向。但若塑形奖励设计不当,智能体可能优化塑形信号而非原始任务目标,产生目标偏移。势函数塑形
在理论上可保持最优策略不变,因此是一类较安全的奖励塑形形式。
上述问题强调公式背后的概念角色。掌握本章内容的关键,不仅在于记忆公式形式,还在于理解每个对象在强化学习问题中的功能。
后续章节如何使用
| 后续章节 | 主要使用的本章对象 | 用法 |
|---|---|---|
| 第 4 章深度 Q 网络 | 、、、TD Target | 用神经网络近似动作价值,用自举目标更新 Q 函数 |
| 第 5 章策略梯度 | 、、、$G_t$ | 直接优化参数化策略,提高高回报动作概率 |
| 第 6 章 Actor-Critic | 、TD Error、$J(\theta)$ | 用价值函数作为 Critic,为策略更新提供低方差信号 |
| 第 7 章 PPO | 、优势函数、TD Error、策略目标 | 用 Critic 估计优势,并约束策略更新幅度 |
| 第 8 章以后大模型 RL | 策略、奖励、回报、目标函数 | 把 token 生成看作序列决策,把偏好或验证信号转成优化目标 |
因此,第 3 章中的公式不仅用于本章练习,也将在后续算法中反复出现。随着模型从表格表示过渡到函数近似,这些对象将以神经网络、损失函数、训练目标、优势函数和 KL 约束等形式重新出现。
小结
第 3 章建立了强化学习理论基础的基本结构:
- 用 MDP 五元组定义序列决策问题。
- 用折扣累积回报 定义长期优化目标。
- 用 和 评估状态与动作。
- 用贝尔曼方程揭示价值的递归结构。
- 用 DP、MC、TD 说明价值可以如何被计算或估计。
- 用 将参数化策略学习表述为优化问题。
- 掌握从数据获取维度区分算法(On/Off-policy, Online/Offline)。
- 用奖励设计说明优化目标从何而来,以及为什么目标定义本身会影响学习结果。
下一章将从 出发,进入第一个完整算法族:第 4 章:深度 Q 网络。