Skip to content

第3章:强化学习理论基础——MDP、价值函数与策略优化

本章导读

核心内容

  • 掌握 MDP 五元组、折扣累积回报、价值函数、贝尔曼方程这套统一语言。
  • 理解 DP、MC、TD 如何从不同假设出发估计价值函数。
  • 区分 Q(s,a)Q(s,a) 路线与 J(θ)J(\theta) 路线,并理解奖励函数如何决定优化目标。

核心公式

M=S,A,P,R,γ(MDP 五元组:定义环境规则)\mathcal{M} = \langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle \quad \text{(MDP 五元组:定义环境规则)}

Gt=k=0γkrt+k(折扣累积回报:定义长期总目标)G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k} \quad \text{(折扣累积回报:定义长期总目标)}

Vπ(s)=Eπ[Gtst=s],Qπ(s,a)=Eπ[Gtst=s,at=a](状态价值与动作价值:评估局面和动作)V^\pi(s) = \mathbb{E}_\pi[G_t \mid s_t = s], \quad Q^\pi(s,a) = \mathbb{E}_\pi[G_t \mid s_t = s, a_t = a] \quad \text{(状态价值与动作价值:评估局面和动作)}

J(θ)=Eπθ[t=0γtrt](策略优化目标:衡量策略平均回报)J(\theta) = \mathbb{E}_{\pi_\theta}\left[\sum_{t=0}^{\infty}\gamma^t r_t\right] \quad \text{(策略优化目标:衡量策略平均回报)}

本章公式的作用

第 3 章通过一组基础公式建立强化学习的统一表述。MDP 五元组用于刻画智能体所处的序列决策环境;折扣累积回报 GtG_t 用于定义长期优化目标;状态价值函数与动作价值函数用于评估状态和动作的长期回报;策略目标 J(θ)J(\theta) 则用于表述参数化策略的优化问题。后续 DQN、策略梯度、Actor-Critic 和 PPO 都建立在这些基本对象之上。

第 1 章我们在 CartPole 倒立摆上训练了一个平衡杆的智能体——这是经典控制任务的典型场景,状态和动作都是低维向量,奖励由物理规则直接给出。第 2 章我们转向语言模型偏好对齐,用 DPO 让大模型学会区分优质回答与劣质回答,不再需要人工编写奖励函数。这两章从完全不同的场景出发,展示了强化学习的基本使用方式。

前两章的经验让我们能跑通代码,但也留下了一些悬而未决的问题:CartPole 里的 reward 到底是在优化什么?DPO 背后的偏好学习为什么能奏效?要回答这些问题,需要从"怎么用"深入到"为什么"——这正是本章的目标。

回到最根本的问题:强化学习研究的是什么? 答案是序列决策——智能体在每一步选择动作,环境给出反馈并转移到下一个状态,如此往复。关键在于,智能体追求的不是某一步的即时奖励,而是整个过程中的累积回报。贪心地拿眼前最大的奖励,往往不是最优策略。

要用数学语言精确描述这一过程,就需要一个统一的形式化框架——马尔可夫决策过程(Markov Decision Process, MDP)。MDP 把状态、动作、转移概率、奖励函数和折扣因子打包成一个五元组 S,A,P,R,γ\langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle。有了它,价值函数、贝尔曼方程、Q-Learning、策略梯度、PPO——这些看似各异的算法,才有了共同的语言。

定义好问题之后,下一步是定义**"好坏"的度量**。折扣累积回报 GtG_t 描述一条轨迹从某一时刻起能获得的总收益,而价值函数则把这种收益的期望分配到具体的状态或动作上。在此基础上,贝尔曼方程揭示了一个关键的递归结构:一个状态的价值等于"当前一步的奖励"加上"下一状态价值的折扣"。这个看似简单的等式,是动态规划、蒙特卡洛方法和时序差分方法的共同起点。

沿着价值函数继续往下,自然分出两条算法路线

  • Value-based 路线:学习 Q(s,a)Q(s,a),给每个动作打分,再选择分数最高的动作——通向 Q-Learning 和 DQN。
  • Policy-based 路线:直接定义策略目标 J(θ)J(\theta),通过梯度方法优化策略参数——通向策略梯度、Actor-Critic 和 PPO。

本章的作用相当于全书的理论地基。第 4 章的 DQN 会依赖 Q(s,a)Q(s,a),第 5 章的策略梯度会依赖 J(θ)J(\theta),第 6 章的 Actor-Critic 和 PPO 会同时使用价值估计与策略优化思想。理解本章之后,后续算法中的许多公式就不再是孤立的技巧,而是从同一套决策建模框架中自然推出的结果。

章节安排

小节核心内容
动手:探索与利用——多臂老虎机从最小决策问题理解探索、利用与期望回报
马尔可夫决策过程定义 MDP 五元组、折扣回报与策略
价值函数与贝尔曼方程引入状态价值函数,并推导价值的递归结构
价值计算:动态规划、蒙特卡洛与时序差分比较三类价值估计方法的假设、数据需求和更新方式
动作价值函数 Q(s, a)从状态价值过渡到动作价值,为 Q-Learning 做准备
路线二:J(θ)——直接优化策略从直接优化策略的角度定义目标函数
算法数据来源讨论 On-policy 与 Off-policy,Online 与 Offline 的区别
奖励函数设计讨论奖励如何表达任务目标,以及错误奖励可能带来的问题
本章总结汇总 3.1-3.8 的核心公式、算法路线与后续章节衔接

学习目标

读完本章后,你应该能够:

  • 用 MDP 五元组 S,A,P,R,γ\langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle 形式化地描述一个强化学习问题;
  • 理解贝尔曼方程如何将长期回报写成递归结构,并掌握动态规划、蒙特卡洛、时序差分三类价值估计方法的核心差异;
  • 说清两条算法路线的分野——Q(s,a)Q(s,a) 路线给动作打分、选最优动作,J(θ)J(\theta) 路线直接优化策略参数,两者分别通向 DQN 和 PPO。

建议先完成多臂老虎机实验,再进入 MDP 的形式化定义。这样可以先在一个足够简单的环境中看到"探索与利用"的矛盾,再把直觉提升为一般的数学语言。下一节从最小的强化学习问题开始:动手:探索与利用——多臂老虎机

Built for reusable bilingual course delivery