第3章：强化学习理论基础——MDP、价值函数与策略优化

本章导读

核心内容

掌握 MDP 五元组、折扣累积回报、价值函数、贝尔曼方程这套统一语言。
理解 DP、MC、TD 如何从不同假设出发估计价值函数。
区分 $Q(s,a)$ 路线与 $J(\theta)$ 路线，并理解奖励函数如何决定优化目标。

核心公式

$\mathcal{M} = \langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle \quad \text{（MDP 五元组：定义环境规则）}$

$G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k} \quad \text{（折扣累积回报：定义长期总目标）}$

$V^\pi(s) = \mathbb{E}_\pi[G_t \mid s_t = s], \quad Q^\pi(s,a) = \mathbb{E}_\pi[G_t \mid s_t = s, a_t = a] \quad \text{（状态价值与动作价值：评估局面和动作）}$

$J(\theta) = \mathbb{E}_{\pi_\theta}\left[\sum_{t=0}^{\infty}\gamma^t r_t\right] \quad \text{（策略优化目标：衡量策略平均回报）}$

本章公式的作用

第 3 章通过一组基础公式建立强化学习的统一表述。MDP 五元组用于刻画智能体所处的序列决策环境；折扣累积回报 $G_t$ 用于定义长期优化目标；状态价值函数与动作价值函数用于评估状态和动作的长期回报；策略目标 $J(\theta)$ 则用于表述参数化策略的优化问题。后续 DQN、策略梯度、Actor-Critic 和 PPO 都建立在这些基本对象之上。

第 1 章我们在 CartPole 倒立摆上训练了一个平衡杆的智能体——这是经典控制任务的典型场景，状态和动作都是低维向量，奖励由物理规则直接给出。第 2 章我们转向语言模型偏好对齐，用 DPO 让大模型学会区分优质回答与劣质回答，不再需要人工编写奖励函数。这两章从完全不同的场景出发，展示了强化学习的基本使用方式。

前两章的经验让我们能跑通代码，但也留下了一些悬而未决的问题：CartPole 里的 reward 到底是在优化什么？DPO 背后的偏好学习为什么能奏效？要回答这些问题，需要从"怎么用"深入到"为什么"——这正是本章的目标。

回到最根本的问题：强化学习研究的是什么？ 答案是序列决策——智能体在每一步选择动作，环境给出反馈并转移到下一个状态，如此往复。关键在于，智能体追求的不是某一步的即时奖励，而是整个过程中的累积回报。贪心地拿眼前最大的奖励，往往不是最优策略。

要用数学语言精确描述这一过程，就需要一个统一的形式化框架——马尔可夫决策过程（Markov Decision Process, MDP）。MDP 把状态、动作、转移概率、奖励函数和折扣因子打包成一个五元组 $\langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle$ 。有了它，价值函数、贝尔曼方程、Q-Learning、策略梯度、PPO——这些看似各异的算法，才有了共同的语言。

定义好问题之后，下一步是定义**"好坏"的度量**。折扣累积回报 $G_t$ 描述一条轨迹从某一时刻起能获得的总收益，而价值函数则把这种收益的期望分配到具体的状态或动作上。在此基础上，贝尔曼方程揭示了一个关键的递归结构：一个状态的价值等于"当前一步的奖励"加上"下一状态价值的折扣"。这个看似简单的等式，是动态规划、蒙特卡洛方法和时序差分方法的共同起点。

沿着价值函数继续往下，自然分出两条算法路线：

Value-based 路线：学习 $Q(s,a)$ ，给每个动作打分，再选择分数最高的动作——通向 Q-Learning 和 DQN。
Policy-based 路线：直接定义策略目标 $J(\theta)$ ，通过梯度方法优化策略参数——通向策略梯度、Actor-Critic 和 PPO。

本章的作用相当于全书的理论地基。第 4 章的 DQN 会依赖 $Q(s,a)$ ，第 5 章的策略梯度会依赖 $J(\theta)$ ，第 6 章的 Actor-Critic 和 PPO 会同时使用价值估计与策略优化思想。理解本章之后，后续算法中的许多公式就不再是孤立的技巧，而是从同一套决策建模框架中自然推出的结果。

章节安排

小节	核心内容
动手：探索与利用——多臂老虎机	从最小决策问题理解探索、利用与期望回报
马尔可夫决策过程	定义 MDP 五元组、折扣回报与策略
价值函数与贝尔曼方程	引入状态价值函数，并推导价值的递归结构
价值计算：动态规划、蒙特卡洛与时序差分	比较三类价值估计方法的假设、数据需求和更新方式
动作价值函数 Q(s, a)	从状态价值过渡到动作价值，为 Q-Learning 做准备
路线二：J(θ)——直接优化策略	从直接优化策略的角度定义目标函数
算法数据来源	讨论 On-policy 与 Off-policy，Online 与 Offline 的区别
奖励函数设计	讨论奖励如何表达任务目标，以及错误奖励可能带来的问题
本章总结	汇总 3.1-3.8 的核心公式、算法路线与后续章节衔接

学习目标

读完本章后，你应该能够：

用 MDP 五元组 $\langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle$ 形式化地描述一个强化学习问题；
理解贝尔曼方程如何将长期回报写成递归结构，并掌握动态规划、蒙特卡洛、时序差分三类价值估计方法的核心差异；
说清两条算法路线的分野—— $Q(s,a)$ 路线给动作打分、选最优动作， $J(\theta)$ 路线直接优化策略参数，两者分别通向 DQN 和 PPO。

建议先完成多臂老虎机实验，再进入 MDP 的形式化定义。这样可以先在一个足够简单的环境中看到"探索与利用"的矛盾，再把直觉提升为一般的数学语言。下一节从最小的强化学习问题开始：动手：探索与利用——多臂老虎机。

1. CartPole 倒立摆

2. DPO 偏好微调

3. MDP 与价值函数

4. Q-Learning 与 DQN

5. 策略梯度与 REINFORCE

6. Actor-Critic

7. PPO

8. RLHF 全流程

9. 后训练对齐

10. Agentic RL

11. VLM 强化学习

12. 未来趋势

B. RL 工程实践

E. 强化学习的数学基础

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

第3章：强化学习理论基础——MDP、价值函数与策略优化

本章导读

章节安排

学习目标

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

第3章：强化学习理论基础——MDP、价值函数与策略优化 ​

本章导读 ​

章节安排 ​

学习目标 ​

第3章：强化学习理论基础——MDP、价值函数与策略优化

本章导读

章节安排

学习目标