E.4.5 KL、RLHF、DPO 与互信息完整公式

前置知识：本页汇总 E.4 模块所有公式，建议在读完 E.4.1 到 E.4.4 后再来回顾。

这一页汇总 E.4 模块的完整公式，方便回顾。建议先读完前面几篇正文再来查表。

KL、交叉熵和熵的关系

前面分别看过熵、交叉熵和 KL 散度。它们其实被一个等式串在一起——这个等式是理解所有后续公式的基础。

$D_{KL}(P\|Q)=H(P,Q)-H(P).$

展开验证：

$H(P,Q)-H(P) = -\sum_x P(x)\log Q(x) + \sum_x P(x)\log P(x).$

合并求和：

$=\sum_x P(x)\log\frac{P(x)}{Q(x)} =D_{KL}(P\|Q).$

这说明 KL 散度可以理解为：如果真实分布是 $P$ ，但你用 $Q$ 来编码，会比最优编码多付出多少额外信息。

在机器学习中：

最小化交叉熵 $H(P,Q)$ 。
当 $P$ 固定时，等价于最小化 $D_{KL}(P\|Q)$ 。

这就是分类模型、奖励模型、语言模型训练中交叉熵损失的数学基础。

进阶公式：RLHF 中的 KL 正则目标

这一节把 KL 散度放到 RLHF 的完整优化目标中——奖励项把模型往高分回答推，KL 项像安全绳把模型拉回参考模型附近。

RLHF 的策略优化常写成：

$\max_\pi \; \mathbb{E}_{x,y\sim\pi}[r(x,y)] -\beta D_{KL}(\pi(\cdot\mid x)\|\pi_{ref}(\cdot\mid x)).$

其中：

$r(x,y)$ 是奖励模型给回答 $y$ 的分数。
$\pi$ 是当前要优化的策略模型。
$\pi_{ref}$ 是参考模型，通常是 SFT 模型。
$\beta$ 控制”追求奖励”和”别偏离参考模型”之间的权衡。

如果 $\beta$ 太小，模型容易为了奖励过度偏移，出现 reward hacking；如果 $\beta$ 太大，模型几乎不敢改变，学习效果弱。

进阶公式：DPO 的对数概率比

DPO 不显式训练奖励模型再跑 PPO，而是直接用偏好数据优化策略。它的核心工具是对数概率比——比较当前模型相对于参考模型对某个回答的偏好程度。

$\log\frac{\pi_\theta(y\mid x)}{\pi_{ref}(y\mid x)}.$

对于一个偏好样本 $(x,y_w,y_l)$ ，其中 $y_w$ 是更好的回答， $y_l$ 是较差回答，DPO 损失常写成：

$\mathcal{L}_{DPO}(\theta) =-\log\sigma\left( \beta\left[ \log\frac{\pi_\theta(y_w\mid x)}{\pi_{ref}(y_w\mid x)} - \log\frac{\pi_\theta(y_l\mid x)}{\pi_{ref}(y_l\mid x)} \right] \right).$

这个式子可以从简单例子理解：

如果模型相对参考模型更提高了 winner 的概率，第一项变大。
如果模型相对参考模型更提高了 loser 的概率，第二项变大，会抵消优势。
两者差值越大，说明模型越符合偏好数据。

DPO 的核心不是”让 winner 概率无限大”，而是”相对于参考模型，winner 应该比 loser 更受偏好”。这就是 KL 正则思想在偏好学习中的隐式体现。

进阶公式：互信息与表征学习

互信息把熵和 KL 散度结合在一起，回答”两个随机变量共享了多少信息”——在表征学习中用来评估状态表征是否保留了与任务回报相关的信息。

$I(X;Y)=D_{KL}(P_{XY}\|P_XP_Y)=H(X)-H(X\mid Y).$

在强化学习表征学习中，可以希望状态表征 $\phi(s)$ 和未来回报 $G_t$ 有较高互信息：

$I(\phi(s);G_t) \text{ 较大}.$

这表示表征中保留了和任务回报相关的信息。与此同时，也可能希望表征和无关噪声的互信息较低，从而提升泛化能力。

这类公式在基础算法中不一定直接出现，但在探索、表示学习、世界模型和无监督 RL 中很常见。

小结

本页汇总了 E.4 模块的核心公式：

公式类别	核心等式/表达式	直觉含义
KL-交叉熵-熵	$D_{KL}(P\|Q)=H(P,Q)-H(P)$	多出来的编码成本就是分布差异
RLHF 目标	$\max_\pi \mathbb{E}[r]-\beta D_{KL}(\pi\|\pi_{ref})$	追求奖励但别离参考模型太远
DPO 损失	$-\log\sigma(\beta\log\frac{\pi_\theta(y_w)}{\pi_{ref}(y_w)}-\beta\log\frac{\pi_\theta(y_l)}{\pi_{ref}(y_l)})$	相对概率差越大越好
互信息	$I(X;Y)=H(X)-H(X\mid Y)=D_{KL}(P_{XY}\|P_XP_Y)$	知道 $Y$ 后 $X$ 不确定性减少了多少

下一篇：E.4.6 公式速查与练习 —— 汇总本模块所有公式，用练习检验理解。

1. CartPole 倒立摆

2. DPO 偏好微调

3. MDP 与价值函数

4. Q-Learning 与 DQN

5. 策略梯度与 REINFORCE

6. Actor-Critic

7. PPO

8. RLHF 全流程

9. 后训练对齐

10. Agentic RL

11. VLM 强化学习

12. 未来趋势

B. RL 工程实践

E. 强化学习的数学基础

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

E.4.5 KL、RLHF、DPO 与互信息完整公式

KL、交叉熵和熵的关系

进阶公式：RLHF 中的 KL 正则目标

进阶公式：DPO 的对数概率比

进阶公式：互信息与表征学习

小结

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

E.4.5 KL、RLHF、DPO 与互信息完整公式 ​

KL、交叉熵和熵的关系 ​

进阶公式：RLHF 中的 KL 正则目标 ​

进阶公式：DPO 的对数概率比 ​

进阶公式：互信息与表征学习 ​

小结 ​

E.4.5 KL、RLHF、DPO 与互信息完整公式

KL、交叉熵和熵的关系

进阶公式：RLHF 中的 KL 正则目标

进阶公式：DPO 的对数概率比

进阶公式：互信息与表征学习

小结