第3章:强化学习理论基础——MDP、价值函数与策略优化
本章导读
核心内容
- 掌握 MDP 五元组、折扣累积回报、价值函数、贝尔曼方程这套统一语言。
- 理解 DP、MC、TD 如何从不同假设出发估计价值函数。
- 区分 路线与 路线,并理解奖励函数如何决定优化目标。
核心公式
本章公式的作用
第 3 章通过一组基础公式建立强化学习的统一表述。MDP 五元组用于刻画智能体所处的序列决策环境;折扣累积回报 用于定义长期优化目标;状态价值函数与动作价值函数用于评估状态和动作的长期回报;策略目标 则用于表述参数化策略的优化问题。后续 DQN、策略梯度、Actor-Critic 和 PPO 都建立在这些基本对象之上。
第 1 章我们在 CartPole 倒立摆上训练了一个平衡杆的智能体——这是经典控制任务的典型场景,状态和动作都是低维向量,奖励由物理规则直接给出。第 2 章我们转向语言模型偏好对齐,用 DPO 让大模型学会区分优质回答与劣质回答,不再需要人工编写奖励函数。这两章从完全不同的场景出发,展示了强化学习的基本使用方式。
前两章的经验让我们能跑通代码,但也留下了一些悬而未决的问题:CartPole 里的 reward 到底是在优化什么?DPO 背后的偏好学习为什么能奏效?要回答这些问题,需要从"怎么用"深入到"为什么"——这正是本章的目标。
回到最根本的问题:强化学习研究的是什么? 答案是序列决策——智能体在每一步选择动作,环境给出反馈并转移到下一个状态,如此往复。关键在于,智能体追求的不是某一步的即时奖励,而是整个过程中的累积回报。贪心地拿眼前最大的奖励,往往不是最优策略。
要用数学语言精确描述这一过程,就需要一个统一的形式化框架——马尔可夫决策过程(Markov Decision Process, MDP)。MDP 把状态、动作、转移概率、奖励函数和折扣因子打包成一个五元组 。有了它,价值函数、贝尔曼方程、Q-Learning、策略梯度、PPO——这些看似各异的算法,才有了共同的语言。
定义好问题之后,下一步是定义**"好坏"的度量**。折扣累积回报 描述一条轨迹从某一时刻起能获得的总收益,而价值函数则把这种收益的期望分配到具体的状态或动作上。在此基础上,贝尔曼方程揭示了一个关键的递归结构:一个状态的价值等于"当前一步的奖励"加上"下一状态价值的折扣"。这个看似简单的等式,是动态规划、蒙特卡洛方法和时序差分方法的共同起点。
沿着价值函数继续往下,自然分出两条算法路线:
- Value-based 路线:学习 ,给每个动作打分,再选择分数最高的动作——通向 Q-Learning 和 DQN。
- Policy-based 路线:直接定义策略目标 ,通过梯度方法优化策略参数——通向策略梯度、Actor-Critic 和 PPO。
本章的作用相当于全书的理论地基。第 4 章的 DQN 会依赖 ,第 5 章的策略梯度会依赖 ,第 6 章的 Actor-Critic 和 PPO 会同时使用价值估计与策略优化思想。理解本章之后,后续算法中的许多公式就不再是孤立的技巧,而是从同一套决策建模框架中自然推出的结果。
章节安排
| 小节 | 核心内容 |
|---|---|
| 动手:探索与利用——多臂老虎机 | 从最小决策问题理解探索、利用与期望回报 |
| 马尔可夫决策过程 | 定义 MDP 五元组、折扣回报与策略 |
| 价值函数与贝尔曼方程 | 引入状态价值函数,并推导价值的递归结构 |
| 价值计算:动态规划、蒙特卡洛与时序差分 | 比较三类价值估计方法的假设、数据需求和更新方式 |
| 动作价值函数 Q(s, a) | 从状态价值过渡到动作价值,为 Q-Learning 做准备 |
| 路线二:J(θ)——直接优化策略 | 从直接优化策略的角度定义目标函数 |
| 算法数据来源 | 讨论 On-policy 与 Off-policy,Online 与 Offline 的区别 |
| 奖励函数设计 | 讨论奖励如何表达任务目标,以及错误奖励可能带来的问题 |
| 本章总结 | 汇总 3.1-3.8 的核心公式、算法路线与后续章节衔接 |
学习目标
读完本章后,你应该能够:
- 用 MDP 五元组 形式化地描述一个强化学习问题;
- 理解贝尔曼方程如何将长期回报写成递归结构,并掌握动态规划、蒙特卡洛、时序差分三类价值估计方法的核心差异;
- 说清两条算法路线的分野—— 路线给动作打分、选最优动作, 路线直接优化策略参数,两者分别通向 DQN 和 PPO。
建议先完成多臂老虎机实验,再进入 MDP 的形式化定义。这样可以先在一个足够简单的环境中看到"探索与利用"的矛盾,再把直觉提升为一般的数学语言。下一节从最小的强化学习问题开始:动手:探索与利用——多臂老虎机。