V(s) 与贝尔曼方程

本节导读

核心内容

理解状态价值函数 $V^\pi(s)$ ：站在状态 $s$ ，按策略 $\pi$ 行动，未来平均能拿多少总分。
理解贝尔曼方程的核心递推：当前价值 = 眼前奖励 + 折扣后的下一状态价值。
区分贝尔曼期望方程和贝尔曼最优方程：一个评估给定策略，一个寻找最优选择。
看懂 TD Target 和 TD Error 为什么是贝尔曼方程在采样数据上的版本。

核心公式

$V^\pi(s)=\mathbb{E}_\pi\left[\sum_{k=0}^{\infty}\gamma^k r_{t+k}\mid s_t=s\right] \quad \text{（状态价值函数定义：评估状态长期回报）}$

$V^\pi(s)=\sum_{a\in\mathcal{A}}\pi(a\mid s)\left[R(s,a)+\gamma\sum_{s'\in\mathcal{S}}P(s'\mid s,a)V^\pi(s')\right] \quad \text{（贝尔曼期望方程：固定策略下递归算价值）}$

$V^*(s)=\max_a\left[R(s,a)+\gamma\sum_{s'\in\mathcal{S}}P(s'\mid s,a)V^*(s')\right] \quad \text{（贝尔曼最优方程：定义最优状态价值）}$

状态价值与贝尔曼方程 (State Value and Bellman Equation)：
$V^\pi(s)$ ：状态 $s$ 的价值（Value），即从 $s$ 开始按策略 $\pi$ 能拿到的平均总分。
$r_{t+k}$ ：未来第 $k$ 步拿到的单步奖励（Reward）。
$\gamma$ ：折扣因子（Gamma），控制对未来奖励的重视程度（ $0 \sim 1$ ）。
$\pi(a\mid s)$ ：策略（Policy），在状态 $s$ 下选择动作 $a$ 的概率。
$P(s'\mid s,a)$ ：状态转移概率，在状态 $s$ 采取动作 $a$ 后，跳到下一个状态 $s'$ 的概率。

为什么需要这些公式

有了 MDP 以后，我们已经能描述"局面怎么变"了，但还不知道"一个局面到底好不好"。只看眼前奖励会被骗：CartPole 每活一步都给 $+1$ ，可"杆子马上要倒"和"杆子很稳"显然不是同一个局面。于是需要 $V^\pi(s)$ ，把未来可能拿到的分数提前算回当前状态。可是未来太长，不可能一条条展开，所以贝尔曼方程把问题改成："这个局面的价值 = 眼前一步 + 下一局面的价值"。读到这里会有一个很重要的"哦"：价值不是硬看完整个未来，而是靠递推一层层传回来。下一节自然要问：理论上有了递推式，实际数据里怎么把它学出来？

上一节我们已经有了 MDP 五元组 $\langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle$ ，也知道策略 $\pi$ 会决定智能体怎么行动。现在的问题变成：

站在当前这个局面，智能体到底处于优势还是劣势？

只看一步奖励不够。CartPole 里每活一步都是 $+1$ ，但“杆子已经快倒了”和“杆子非常稳定”显然不是同一个局面。我们需要一个数，能把未来也考虑进去。这个数就是状态价值函数 $V(s)$ 。

符号说明

本节会反复使用下面这些符号。先明确它们各自表示什么：

符号	可以先怎么理解
$s_t$	第 $t$ 步的状态，比如棋盘局面、机器人姿态
$a_t$	第 $t$ 步的动作，比如往左走、输出一个控制量
$r_t$	第 $t$ 步拿到的即时奖励
$\pi(a\mid s)$	策略在状态 $s$ 下选择动作 $a$ 的概率
$\gamma$	折扣因子，越远的奖励权重越小
$G_t$	从第 $t$ 步开始往后累积的总回报
$V^\pi(s)$	在状态 $s$ 开始，按策略 $\pi$ 行动的平均总回报

这里有一个很重要的区分：

$r_t$ 是眼前这一步的即时奖励。它只看一步，走出这一步以后才知道。
$G_t$ 是从第 $t$ 步开始，沿着某一条具体轨迹实际拿到的折扣总回报。它看的是一整条轨迹，所以不同轨迹会有不同的 $G_t$ 。
$V^\pi(s)$ 不是某一条轨迹的分数，而是从状态 $s$ 出发、按策略 $\pi$ 行动时，对许多可能轨迹上的 $G_t$ 取平均。

举个小例子。先写完整定义。折扣回报 $G_t$ 的原始公式是：

$G_t = \sum_{k=0}^{\infty}\gamma^k r_{t+k}$

把求和展开，就是：

$G_t = r_t+\gamma r_{t+1}+\gamma^2 r_{t+2} +\gamma^3 r_{t+3} +\cdots$

现在为了演示，假设折扣因子 $\gamma=0.9$ ，从同一个状态 $s$ 出发，按同一个策略玩两次，并且每次只截取前三步奖励。也就是先看这个三步截断版本：

$G_t = r_t+\gamma r_{t+1}+\gamma^2r_{t+2}$

第一次比较顺利，三步奖励分别是 $2,4,6$ 。代入公式：

$G_t^{(1)} = \underbrace{2}_{r_t} + 0.9\times \underbrace{4}_{r_{t+1}} + 0.9^2\times \underbrace{6}_{r_{t+2}}$

计算得到：

$G_t^{(1)} = 10.46$

第二次后面遇到坏结果，三步奖励分别是 $2,1,-3$ 。同样代入公式：

$G_t^{(2)} = \underbrace{2}_{r_t} + 0.9\times \underbrace{1}_{r_{t+1}} + 0.9^2\times \underbrace{(-3)}_{r_{t+2}}$

计算得到：

$G_t^{(2)} = 0.47$

注意，两次的第一步即时奖励都是 $r_t=2$ ，但后面发生的事情不同，所以整条轨迹的 $G_t$ 差很多。状态价值 $V^\pi(s)$ 是这些可能 $G_t$ 的期望；如果现在只有这两次采样，可以先用它们的平均值做一个粗略估计：

$V^\pi(s)\approx \frac{10.46+0.47}{2}=5.465$

所以， $r_t$ 是一步分数， $G_t$ 是一整局实际分数， $V^\pi(s)$ 是站在状态 $s$ 时对这一整局分数的平均预测。

状态价值函数的定义

状态价值函数的定义是：

$V^\pi(s) = \mathbb{E}_\pi[G_t\mid s_t=s]$

如果把 $G_t$ 展开，就是：

$V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{k=0}^{\infty}\gamma^k r_{t+k} \mid s_t=s \right]$

这行公式可以按三层读：

$\sum_{k=0}^{\infty}\gamma^k r_{t+k}$ ：从现在开始，把未来奖励加起来。
$\gamma^k$ ：越远的奖励打折越多。 $\gamma=0$ 只看眼前， $\gamma$ 接近 1 更重视长期。
$\mathbb{E}_\pi[\cdot]$ ：环境和策略可能有随机性，所以我们看很多次尝试的平均结果。

一句话： $V^\pi(s)$ 是“从状态 $s$ 出发，按策略 $\pi$ 玩下去，平均能拿多少总分”。

为什么上标要写 $\pi$ ？因为同一个状态，策略不同，价值也不同。在同一个棋局里，高手继续下和新手继续下，最终胜率当然不一样。好策略的 $V^\pi(s)$ 高，差策略的 $V^\pi(s)$ 低。RL 的目标，就是找到让价值最高的策略。

为什么我们需要贝尔曼方程？

在深入推导之前，我们先停下来理清一个重要的逻辑：是先有状态价值 $V$ ，还是先有贝尔曼方程？

答案是：先有价值函数的概念，贝尔曼方程是为了计算这个价值而发明的“破局工具”。

我们在前面已经定义了状态价值 $V^\pi(s)$ ：它是未来所有奖励的折现总和的期望。如果想知道一个状态的价值，最直观的想法就是：直接顺着策略往下走，把一条长长轨迹上的奖励加起来不就行了吗？

但这在现实中面临两个巨大的困难：

未来太长了：有些任务没有明确的终点（比如维持机器人的平衡），你要加到猴年马月？
可能性太多了：因为环境和策略都有随机性，状态会像树枝一样呈指数级分叉。要算出一个准确的期望，你需要遍历无数条轨迹。

面对这种无限视野和庞大状态树的问题，1950 年代，美国应用数学家理查德·贝尔曼（Richard Bellman）在创立动态规划（Dynamic Programming）理论时，提出了大名鼎鼎的最优性原理（Principle of Optimality）。他发现：我们不需要一眼望穿整个未来，因为“今天的价值”里，必然包含着“明天的价值”。

这就像是算退休金。你不需要现在就把未来 30 年每一天的利息都分别算清楚再相加，你只要知道：“今天的总资产 = 今天的收益 + 明天本金带来的未来总资产”。这种把一个无限期的大问题，精妙地拆解成“当前这一步”和“剩下所有步”的思想，就是动态规划的灵魂。

基于这个原理写出来的递推等式，就被称为贝尔曼方程（Bellman Equation）。它将状态价值从一个无法计算的“无限求和的单向链条”，巧妙地转化成了只依赖于相邻状态的“递归圈”。这不仅是整个强化学习理论的基石，也是后续所有算法（DP、MC、TD 等）能够通过不断迭代来学习价值的底层原因。

接下来，我们就来看看这个神奇的“递归圈”在数学上是如何从 $V(s)$ 的原始定义中严谨推导出来的。

贝尔曼方程的严谨推导

前面我们凭直觉理解了价值的递推关系，现在我们给出严谨的数学推导。贝尔曼方程的本质是揭示了当前状态价值与未来状态价值之间的递归关系。这一步推导的伟大之处在于：它在数学上严格证明了，我们完全可以把对未来的无限穷举遍历，等价替换成只看“眼前一步”的递归计算。

根据状态价值函数的定义，将其展开：

$\begin{aligned} V(s) &= \mathbb{E}[G_t \mid s_t = s] \\ &= \mathbb{E}[r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + \dots \mid s_t = s] \\ &= \mathbb{E}[r_t \mid s_t = s] + \gamma \mathbb{E}[r_{t+1} + \gamma r_{t+2} + \dots \mid s_t = s] \\ &= R(s) + \gamma \mathbb{E}[G_{t+1} \mid s_t = s] \end{aligned}$

这里 $R(s)$ 是在状态 $s$ 获得的期望即时奖励。

接下来是最关键的一步：很多人可能会觉得，上面公式里的 $\mathbb{E}[G_{t+1} \mid s_t = s]$ 不就是下一个状态的价值 $V(s_{t+1})$ 吗？直接替换不就完了？

直觉上是对的，但在数学上并不能直接画等号。

我们打个比方来理解这种微妙的差别：

$\mathbb{E}[G_{t+1} \mid s_t = s]$ 就像是：你**今天（站在 $s_t$ ）在预测明天开始（ $G_{t+1}$ ）**能赚多少钱。因为明天可能会发生各种情况，所以这个预测里包含着对明天不确定性的猜测。
$V(s_{t+1})$ 就像是：你**明天（已经站在 $s_{t+1}$ ）**再来算未来能赚多少钱。这时候明天的状态已经是既定事实了。

所以，我们现在的公式是“站在今天算未来”，而我们想要凑出 $V(s_{t+1})$ ，就必须想办法把视角从“站在今天”严谨地转换到“站在明天”。

要把视角（也就是概率论里的条件）从 $s_t$ 顺利过渡到 $s_{t+1}$ ，我们其实不需要什么高深定理，只需要三个基础的数学工具：条件期望的定义、概率论中的边缘化（Marginalization），以及强化学习最重要的物理假设——马尔可夫性（Markov Property）。

补充证明：如何严谨地把条件从当前状态推到下一状态？

为了不引入让人眼花缭乱的新符号，我们全程只用 $s_t$ （当前状态）、 $s_{t+1}$ （下一状态）和 $G_{t+1}$ （未来的总回报）这三个变量。我们的终极目标是证明： $\mathbb{E}[G_{t+1} \mid s_t] = \mathbb{E}[V(s_{t+1}) \mid s_t]$ 。

在推导之前，我们要先复习一个高中概率知识：什么是条件变量？期望（ $\mathbb{E}$ ）到底怎么展开？

想象你在掷两枚骰子 $X$ 和 $Y$ 。如果别人没告诉你任何信息，让你猜 $X$ 掷出来的点数平均会是多少（即期望），你会怎么算？很简单：把骰子可能掷出的所有点数（1到6），分别乘以它们掷出的概率（1/6），然后全部加起来。写成公式就是： $\mathbb{E}[X] = \sum_x x \cdot P(x)$ 。这就是最普通的期望。但如果别人偷偷告诉你：“嘿， $Y$ 掷出了个 6”。这时候， $Y$ 就是一个已知条件（条件变量）。在已知 $Y=6$ 的情况下去猜 $X$ ，你的预测肯定会变，这就叫条件期望。写成公式就是把普通的概率换成条件概率： $\mathbb{E}[X \mid Y] = \sum_x x \cdot P(x \mid Y)$ 。
这个“把大写 $\mathbb{E}$ 拆成连加号 $\sum$ 和条件概率 $P$ 相乘”的操作，是我们下面推导的核心武器。记住：竖线 | 后面的东西，就是我们站在当下已经确定的“既定事实”。

第一步：展开 $V(s_{t+1})$ 的期望

根据定义， $V(s_{t+1})$ 就是在给定 $s_{t+1}$ 的情况下，未来回报 $G_{t+1}$ 的期望。我们用上面复习的公式把它展开： $V(s_{t+1}) = \mathbb{E}[G_{t+1} \mid s_{t+1}] = \sum_{G_{t+1}} G_{t+1} \cdot P(G_{t+1} \mid s_{t+1})$ 。

所以，我们等式右边要算的式子 $\mathbb{E}[V(s_{t+1}) \mid s_t]$ ，其实就是在算一大串东西的期望：

$\mathbb{E}[V(s_{t+1}) \mid s_t] = \mathbb{E} \left[ \sum_{G_{t+1}} G_{t+1} P(G_{t+1} \mid s_{t+1}) \;\middle|\; s_t \right]$

第二步：对下一状态 $s_{t+1}$ 再次展开期望

上面那个式子最外层还有一个大写的 $\mathbb{E}[\dots \mid s_t]$ 。括号里的东西虽然长，但它本质上就是明天（ $s_{t+1}$ ）的价值。

因为“明天”会发生什么是随机的，所以 $s_{t+1}$ 是一个不确定的变量。我们怎么算这个随机变量的期望？还是用刚才那招：把每种可能出现的明天，乘以明天出现的概率，然后加起来。

也就是说，外层的 $\mathbb{E}[\dots \mid s_t]$ 变成了 $\sum_{s_{t+1}} (\dots) \cdot P(s_{t+1} \mid s_t)$ ：

$\begin{aligned} \mathbb{E}[V(s_{t+1}) \mid s_t] &= \sum_{s_{t+1}} \underbrace{\left( \sum_{G_{t+1}} G_{t+1} P(G_{t+1} \mid s_{t+1}) \right)}_{\text{这就是 } V(s_{t+1})} \cdot \underbrace{P(s_{t+1} \mid s_t)}_{\text{明天出现的概率}} \\ &= \sum_{s_{t+1}} \sum_{G_{t+1}} G_{t+1} P(G_{t+1} \mid s_{t+1}) P(s_{t+1} \mid s_t) \end{aligned}$

_(注：第二行只是把括号拆开，把外面的 $P(s_{t+1} \mid s*t)$ 乘进去了)*

第三步：注入马尔可夫性（最关键的一步！）

注意上面式子里的 $P(G_{t+1} \mid s_{t+1})$ 。根据马尔可夫性，未来的回报 $G_{t+1}$ 只和刚好发生的那一刻的状态 $s_{t+1}$ 有关，跟更早之前的状态 $s_t$ 没关系。这就好比你掷骰子，第二把的结果只跟第二把怎么掷有关，跟第一把没关系。所以在数学上，我们可以在条件里强行塞进一个 $s_t$ ，它并不会改变概率的值： $P(G_{t+1} \mid s_{t+1}) = P(G_{t+1} \mid s_{t+1}, s_t)$ 。代入上式：

$\mathbb{E}[V(s_{t+1}) \mid s_t] = \sum_{s_{t+1}} \sum_{G_{t+1}} G_{t+1} P(G_{t+1} \mid s_{t+1}, s_t) P(s_{t+1} \mid s_t)$

第四步：概率的乘法公式与边缘化

如果高中的概率知识忘了也没关系，我们可以简单推导一下条件概率的乘法公式。最基础的条件概率公式是： $P(A \mid B) = \frac{P(A, B)}{P(B)}$ ，也就是“在 B 发生的前提下，A 发生的概率”等于“A 和 B 同时发生的概率”除以“B 本身发生的概率”。把分母乘过去，就得到了乘法公式： $P(A, B) = P(A \mid B) \cdot P(B)$ 。

如果我们在所有事件上都加一个额外的条件 $C$ 作为大前提，这个公式依然成立： $P(A, B \mid C) = P(A \mid B, C) \cdot P(B \mid C)$ 。

现在，我们把 $G_{t+1}$ 看作 $A$ ， $s_{t+1}$ 看作 $B$ ， $s_t$ 看作 $C$ 。所以式子后面的两个概率相乘可以合并： $P(G_{t+1} \mid s_{t+1}, s_t) \cdot P(s_{t+1} \mid s_t) = P(G_{t+1}, s_{t+1} \mid s_t)$ 。继续化简：

$\begin{aligned} \mathbb{E}[V(s_{t+1}) \mid s_t] &= \sum_{s_{t+1}} \sum_{G_{t+1}} G_{t+1} P(G_{t+1}, s_{t+1} \mid s_t) \\ &= \sum_{G_{t+1}} G_{t+1} \sum_{s_{t+1}} P(G_{t+1}, s_{t+1} \mid s_t) \quad \text{(把求和符号换个位置)} \\ &= \sum_{G_{t+1}} G_{t+1} P(G_{t+1} \mid s_t) \quad \text{(把所有可能的 $s_{t+1}$ 的概率加起来，也就是消掉 $s_{t+1}$)} \\ &= \mathbb{E}[G_{t+1} \mid s_t] \quad \text{(这刚好就是条件期望的定义！)} \end{aligned}$

证毕！我们就这样一步步严谨地证明了： $\mathbb{E}[G_{t+1} \mid s_t] = \mathbb{E}[V(s_{t+1}) \mid s_t]$ 。

将这个结论代回原式，我们就得到了贝尔曼方程的标准形式：

$\begin{aligned} V(s) &= R(s) + \gamma \mathbb{E}[V(s_{t+1}) \mid s_t = s] \\ &= R(s) + \gamma \sum_{s' \in \mathcal{S}} P(s' \mid s) V(s') \end{aligned}$

这就是贝尔曼方程最核心的魅力：当前状态的价值，等于即时奖励加上下一个状态价值的期望。

矩阵形式与解析解

当一个环境的状态数量有限时（比如只有 $N$ 个状态），贝尔曼方程就不再只是一条单独的等式，而是可以扩展为一个包含 $N$ 个方程的线性方程组。为了方便计算，我们通常会把它打包成矩阵的形式：

$\underbrace{ \begin{pmatrix} V(s_1) \\ V(s_2) \\ \vdots \\ V(s_N) \end{pmatrix} }_{\boldsymbol{V}} = \underbrace{ \begin{pmatrix} R(s_1) \\ R(s_2) \\ \vdots \\ R(s_N) \end{pmatrix} }_{\boldsymbol{R}} + \gamma \underbrace{ \begin{pmatrix} P(s_1 \mid s_1) & P(s_2 \mid s_1) & \dots & P(s_N \mid s_1) \\ P(s_1 \mid s_2) & P(s_2 \mid s_2) & \dots & P(s_N \mid s_2) \\ \vdots & \vdots & \ddots & \vdots \\ P(s_1 \mid s_N) & P(s_2 \mid s_N) & \dots & P(s_N \mid s_N) \end{pmatrix} }_{\boldsymbol{P}} \underbrace{ \begin{pmatrix} V(s_1) \\ V(s_2) \\ \vdots \\ V(s_N) \end{pmatrix} }_{\boldsymbol{V}}$

在这里：

$\boldsymbol{V}$ 是一个 $N \times 1$ 的列向量，装满了所有状态的价值。
$\boldsymbol{R}$ 是一个 $N \times 1$ 的列向量，代表每个状态对应的期望即时奖励。
$\boldsymbol{P}$ 是一个 $N \times N$ 的状态转移矩阵，描述了从任意状态跳到另一个状态的概率。

如果你熟悉线性代数，就能立刻看出，这个庞大的方程组其实可以被极致压缩成一行简洁的表达式：

$\boldsymbol{V} = \boldsymbol{R} + \gamma \boldsymbol{P} \boldsymbol{V}$

既然这是一个关于 $\boldsymbol{V}$ 的一元一次线性方程，我们完全可以通过移项和提取公因式来直接解出 $\boldsymbol{V}$ ：

$\begin{aligned} \boldsymbol{V} - \gamma \boldsymbol{P} \boldsymbol{V} &= \boldsymbol{R} \\ (\boldsymbol{I} - \gamma \boldsymbol{P}) \boldsymbol{V} &= \boldsymbol{R} \\ \boldsymbol{V} &= (\boldsymbol{I} - \gamma \boldsymbol{P})^{-1} \boldsymbol{R} \end{aligned}$

（注：这里的 $\boldsymbol{I}$ 是单位矩阵。）

至此，我们得到了贝尔曼方程的解析解（Analytic Solution）。这意味着，只要环境的规则（奖励 $\boldsymbol{R}$ 和转移概率 $\boldsymbol{P}$ ）是公开透明的，我们理论上就能直接算出所有状态的绝对准确的价值。

既然有公式，为什么还要学其他算法？

因为现实很残酷。计算解析解需要对矩阵 $(\boldsymbol{I} - \gamma \boldsymbol{P})$ 求逆，而矩阵求逆的计算复杂度高达 $O(N^3)$ 。如果状态空间稍微大一点（比如围棋的 $10^{170}$ 种局面），这辈子都算不完。所以，这种“上帝视角”的直接求解法通常只存在于理论和极简单的玩具环境中。面对复杂问题，我们必须转向动态规划（DP）、蒙特卡洛（MC）或时序差分（TD）等通过不断迭代来逼近真实价值的算法。

引入动作：Q 函数与状态-动作价值

前面我们推导的 $V(s_t)$ 是基于某个固定策略 $\pi$ （或者没有动作选择的马尔可夫奖励过程）。为了做决策，我们不仅需要知道“状态好不好”，还需要知道“在这个状态下采取某个动作好不好”。

这就引出了 Q 函数（Q-function），也被称为动作价值函数（Action-value function）。它定义为在某一个状态采取某一个动作后，未来可能得到的期望总回报：

$Q_\pi(s_t, a_t) = \mathbb{E}_\pi[G_t \mid s_t, a_t]$

V 和 Q 的关系是什么？ $V_\pi(s_t)$ 是在状态 $s_t$ 下的平均期望，而我们在状态 $s_t$ 是按照策略 $\pi(a_t \mid s_t)$ 来选择动作的。因此， $V_\pi(s_t)$ 其实就是所有可能动作的 $Q_\pi(s_t, a_t)$ 按照策略概率的加权和：

$V_\pi(s_t) = \sum_{a_t \in \mathcal{A}} \pi(a_t \mid s_t) Q_\pi(s_t, a_t)$

同样地，我们也可以对 Q 函数推导它的贝尔曼方程：

$\begin{aligned} Q_\pi(s_t, a_t) &= \mathbb{E}_\pi[G_t \mid s_t, a_t] \\ &= \mathbb{E}_\pi[r_t + \gamma G_{t+1} \mid s_t, a_t] \\ &= R(s_t, a_t) + \gamma \mathbb{E}_\pi[G_{t+1} \mid s_t, a_t] \\ &= R(s_t, a_t) + \gamma \mathbb{E}_\pi[V_\pi(s_{t+1}) \mid s_t, a_t] \\ &= R(s_t, a_t) + \gamma \sum_{s_{t+1} \in \mathcal{S}} P(s_{t+1} \mid s_t, a_t) V_\pi(s_{t+1}) \end{aligned}$

这说明：采取动作 $a_t$ 的价值 = 动作 $a_t$ 带来的即时奖励 + 动作 $a_t$ 导致的下一状态的平均价值。

贝尔曼期望方程：策略评估

有了 $V$ 和 $Q$ 的转换关系，我们就能顺理成章地写出完整的贝尔曼期望方程。

把 $Q_\pi(s_t, a_t)$ 的展开式代入到 $V_\pi(s_t)$ 的公式中，就得到了评估给定策略 $\pi$ 的方程：

$V^\pi(s_t) = \sum_{a_t \in \mathcal{A}} \pi(a_t \mid s_t) \left[ R(s_t, a_t) + \gamma \sum_{s_{t+1} \in \mathcal{S}} P(s_{t+1} \mid s_t, a_t) V^\pi(s_{t+1}) \right]$

这个公式的逻辑非常清晰，分两层展开：

层级	在平均什么	对应公式
动作层	策略可能选择不同动作	$\sum_{a_t} \pi(a_t \mid s_t)$
状态层	同一个动作可能到达不同下一状态	$\sum_{s_{t+1}} P(s_{t+1} \mid s_t, a_t)$

直观例子：宝藏走廊
假设你在一个 1x5 的走廊里寻宝，只能往右走（策略确定 $\pi(\text{右} \mid s_t)=1$ ），每走一步奖励 $-1$ ，终点价值为 $0$ ，无随机性（ $P=1$ ），且不打折（ $\gamma=1$ ）。根据方程， $V(\text{倒数第二格}) = 1 \times [ -1 + 1 \times V(\text{终点}) ] = -1 + 0 = -1$ 。一层层从右往左递推，各个格子的价值就是 $[-4, -3, -2, -1, 0]$ 。这就是没有任何随机性时，贝尔曼期望方程最朴素的退化形式。

贝尔曼最优方程：寻找最优策略

贝尔曼期望方程回答的是：“如果我按照策略 $\pi$ 行动，状态 $s_t$ 值多少分？” 但 RL 的终极目标是寻找最好的策略。我们想知道：“如果我每一步都做最优选择，状态 $s_t$ 最多值多少分？”

这就引出了最优价值函数 $V^*(s_t)$ 和最优动作价值函数 $Q^*(s_t, a_t)$ 。在一个状态下，最优的选择就是挑出那个让 $Q^*(s_t, a_t)$ 最大的动作：

$V^*(s_t) = \max_{a_t \in \mathcal{A}} Q^*(s_t, a_t)$

同样，最优的 $Q^*(s_t, a_t)$ 依然遵循贝尔曼递推关系（只是未来的状态也被认为会按照最优策略行动）：

$Q^*(s_t, a_t) = R(s_t, a_t) + \gamma \sum_{s_{t+1} \in \mathcal{S}} P(s_{t+1} \mid s_t, a_t) V^*(s_{t+1})$

把 $Q^*(s_t, a_t)$ 代入 $V^*(s_t)$ 中，我们就得到了贝尔曼最优方程：

$V^*(s_t) = \max_{a_t \in \mathcal{A}} \left[ R(s_t, a_t) + \gamma \sum_{s_{t+1} \in \mathcal{S}} P(s_{t+1} \mid s_t, a_t) V^*(s_{t+1}) \right]$

对比期望方程和最优方程，唯一的区别在于：求和（平均）变成了求最大值（ $\max$ ）。

期望方程 $\sum_{a_t} \pi(a_t \mid s_t)$ ：按照策略的概率加权平均。
最优方程 $\max_{a_t}$ ：抛弃概率，直接挑选价值最大的那个动作。只要解出了最优方程，最优策略也就自然产生了（每次选 $\arg\max_{a_t} Q^*(s_t,a_t)$ 即可）。

求解示例：迭代逼近

前面提到，矩阵求逆的复杂度太高，通常我们用迭代法来逼近解。现在用一个只有一个状态的老虎机验证贝尔曼方程。

设定：

只有一个状态，玩完一轮还是回到同一个状态。
永远选择 A 机器。
A 机器 60% 概率奖励 $+1$ ，40% 概率奖励 $-1$ 。
折扣因子 $\gamma=0.9$ 。

单步期望奖励是：

$R=0.6\times(+1)+0.4\times(-1)=0.2$

因为每一轮之后还是同一个状态，所以下一状态价值还是 $V$ 。根据贝尔曼期望方程，有：

$V=0.2+0.9V$

解析解求法（类似于一维的 $(I-\gamma P)^{-1}R$ ）：

$V-0.9V=0.2 \implies 0.1V=0.2 \implies V=\frac{0.2}{0.1}=2.0$

这里的 $2.0$ 不是单步奖励，而是“从现在开始一直玩下去，折扣后的平均总回报”。

迭代法求法：

从 $V=0$ 开始，反复执行 $V\leftarrow R+\gamma V$ ，最后会接近精确解。

python

R = 0.2
gamma = 0.9
V = 0.0

for i in range(50):
    V = R + gamma * V

print(round(V, 6))

运行结果

1.998698

这就是很多强化学习算法（如动态规划和价值迭代）的基本形状。

贝尔曼目标与时序差分误差 (TD Error)

前面我们一直在推导公式，甚至用矩阵求出了“完美解析解”。但现在我们要回到残酷的现实：如果我根本不知道转移概率 $P$ 和奖励函数 $R$ 怎么办？ 在真实的强化学习任务里（比如玩游戏或者大模型生成），环境是个黑盒。你不可能像做数学题一样在纸上把 $V(s)$ 算出来。

既然算不出来，那唯一的办法就是猜，然后在实践中不断修正。

怎么修正呢？贝尔曼方程在这个时候就成了一把“尺子”。贝尔曼方程告诉我们，一个完美的价值估计，必须满足：

$V(s) \approx r + \gamma V(s')$

（注：这里我们用小写的 $r$ 和 $s'$ 表示在环境里真实走一步采样到的奖励和下一状态）

如果等式右边的结果比左边的 $V(s)$ 大，说明我们之前把 $V(s)$ 低估了；如果比左边小，说明高估了。所以，我们可以把右边这项当作一个我们要努力靠近的“目标”（Bellman Target）：

$\text{Target} = r + \gamma V(s')$

有了目标，有了当前的估计，它们之间的差值，就是我们在强化学习中最重要的数据信号——时序差分误差（Temporal Difference Error，简称 TD Error）：

$\delta = \underbrace{r + \gamma V(s')}_{\text{Bellman target}} - \underbrace{V(s)}_{\text{当前估计}}$

为什么叫“时序差分”？因为它利用了时间序列上相邻两步的差异（站在 $s'$ 回看 $s$ ）来产生误差信号。

它的含义非常直接：

TD Error	说明	应该怎么调
$\delta>0$	target 比当前估计高，说明低估了	上调 $V(s)$
$\delta<0$	target 比当前估计低，说明高估了	下调 $V(s)$
$\delta=0$	当前估计已经符合 Bellman 关系	基本不用调

举个数字例子。假设当前状态的估计是：

$V(s)=3$

实际走一步后拿到奖励 $r=1$ ，下一状态估计为 $V(s')=4$ ，折扣因子 $\gamma=0.9$ 。那么：

$\text{Target}=1+0.9\times4=4.6$

$\delta=4.6-3=1.6$

$\delta>0$ ，说明这个状态比原来以为的更好，应该把 $V(s)$ 往上调。最简单的更新可以写成：

$V(s) \leftarrow V(s)+\alpha\delta$

如果学习率 $\alpha=0.1$ ，那么：

$V(s)\leftarrow 3+0.1\times1.6=3.16$

这就是 TD 学习的基本动作：每走一步，就用“现实走出来的一步 + 下一状态估计”修正当前状态估计。

本节总结

这一页公式很多，但主线只有一条：

$V^\pi(s)$ 是从状态 $s$ 出发，按策略 $\pi$ 行动的平均长期回报。
回报可以递推： $G_t=r_t+\gamma G_{t+1}$ 。
所以价值也可以递推：当前价值等于眼前奖励加下一状态价值。
如果策略固定，就得到贝尔曼期望方程。
如果每步都选最好的动作，就得到贝尔曼最优方程。
如果我们只有采样数据，就用 Bellman target 和 TD Error 来一点点修正 $V(s)$ 。

局限性与后续引申

$V(s)$ 已经能告诉你“这个局面好不好”，但到这里还有两个缺口。

第一个缺口是：如果不知道环境模型，怎么估计 $V$ ？ 贝尔曼期望方程里有 $P(s'\mid s,a)$ 和 $R(s,a)$ ，但真实任务里我们往往只拿得到一条条采样轨迹。下一节会讲 DP、MC、TD，它们就是三种从模型或数据中估计价值的方法。

第二个缺口是： $V$ 不直接告诉你该选哪个动作。 如果 $V(s)=80$ ，你只知道当前局面不错，却不知道该向左、向右，还是保持不动。更直接的办法是给每个动作也打分：

$Q(s,a)$

所以接下来的顺序是：先看经典方法速览：DP、MC 与 TD，解决“怎么估计 $V$ ”；再进入 Q(s,a)——给每个动作打分，解决“怎么用价值选动作”。

1. CartPole 倒立摆

2. DPO 偏好微调

3. MDP 与价值函数

4. Q-Learning 与 DQN

5. 策略梯度与 REINFORCE

6. Actor-Critic

7. PPO

8. RLHF 全流程

9. 后训练对齐

10. Agentic RL

11. VLM 强化学习

12. 未来趋势

B. RL 工程实践

E. 强化学习的数学基础

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

V(s) 与贝尔曼方程

本节导读

符号说明

状态价值函数的定义

为什么我们需要贝尔曼方程？

贝尔曼方程的严谨推导

矩阵形式与解析解

引入动作：Q 函数与状态-动作价值

贝尔曼期望方程：策略评估

贝尔曼最优方程：寻找最优策略

求解示例：迭代逼近

贝尔曼目标与时序差分误差 (TD Error)

本节总结

局限性与后续引申

参考文献

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

V(s) 与贝尔曼方程 ​

本节导读 ​

符号说明 ​

状态价值函数的定义 ​

为什么我们需要贝尔曼方程？ ​

贝尔曼方程的严谨推导 ​

矩阵形式与解析解 ​

引入动作：Q 函数与状态-动作价值 ​

贝尔曼期望方程：策略评估 ​

贝尔曼最优方程：寻找最优策略 ​

求解示例：迭代逼近 ​

贝尔曼目标与时序差分误差 (TD Error) ​

本节总结 ​

局限性与后续引申 ​

参考文献 ​

V(s) 与贝尔曼方程

本节导读

符号说明

状态价值函数的定义

为什么我们需要贝尔曼方程？

贝尔曼方程的严谨推导

矩阵形式与解析解

引入动作：Q 函数与状态-动作价值

贝尔曼期望方程：策略评估

贝尔曼最优方程：寻找最优策略

求解示例：迭代逼近

贝尔曼目标与时序差分误差 (TD Error)

本节总结

局限性与后续引申

参考文献