Skip to content

E.4.5 KL、RLHF、DPO 与互信息完整公式

前置知识:本页汇总 E.4 模块所有公式,建议在读完 E.4.1E.4.4 后再来回顾。


这一页汇总 E.4 模块的完整公式,方便回顾。建议先读完前面几篇正文再来查表。

KL、交叉熵和熵的关系

前面分别看过熵、交叉熵和 KL 散度。它们其实被一个等式串在一起——这个等式是理解所有后续公式的基础。

DKL(PQ)=H(P,Q)H(P).D_{KL}(P\|Q)=H(P,Q)-H(P).

展开验证:

H(P,Q)H(P)=xP(x)logQ(x)+xP(x)logP(x).H(P,Q)-H(P) = -\sum_x P(x)\log Q(x) + \sum_x P(x)\log P(x).

合并求和:

=xP(x)logP(x)Q(x)=DKL(PQ).=\sum_x P(x)\log\frac{P(x)}{Q(x)} =D_{KL}(P\|Q).

这说明 KL 散度可以理解为:如果真实分布是 PP,但你用 QQ 来编码,会比最优编码多付出多少额外信息。

在机器学习中:

  • 最小化交叉熵 H(P,Q)H(P,Q)
  • PP 固定时,等价于最小化 DKL(PQ)D_{KL}(P\|Q)

这就是分类模型、奖励模型、语言模型训练中交叉熵损失的数学基础。


进阶公式:RLHF 中的 KL 正则目标

这一节把 KL 散度放到 RLHF 的完整优化目标中——奖励项把模型往高分回答推,KL 项像安全绳把模型拉回参考模型附近。

RLHF 的策略优化常写成:

maxπ  Ex,yπ[r(x,y)]βDKL(π(x)πref(x)).\max_\pi \; \mathbb{E}_{x,y\sim\pi}[r(x,y)] -\beta D_{KL}(\pi(\cdot\mid x)\|\pi_{ref}(\cdot\mid x)).

其中:

  • r(x,y)r(x,y) 是奖励模型给回答 yy 的分数。
  • π\pi 是当前要优化的策略模型。
  • πref\pi_{ref} 是参考模型,通常是 SFT 模型。
  • β\beta 控制”追求奖励”和”别偏离参考模型”之间的权衡。

如果 β\beta 太小,模型容易为了奖励过度偏移,出现 reward hacking;如果 β\beta 太大,模型几乎不敢改变,学习效果弱。


进阶公式:DPO 的对数概率比

DPO 不显式训练奖励模型再跑 PPO,而是直接用偏好数据优化策略。它的核心工具是对数概率比——比较当前模型相对于参考模型对某个回答的偏好程度。

logπθ(yx)πref(yx).\log\frac{\pi_\theta(y\mid x)}{\pi_{ref}(y\mid x)}.

对于一个偏好样本 (x,yw,yl)(x,y_w,y_l),其中 ywy_w 是更好的回答,yly_l 是较差回答,DPO 损失常写成:

LDPO(θ)=logσ(β[logπθ(ywx)πref(ywx)logπθ(ylx)πref(ylx)]).\mathcal{L}_{DPO}(\theta) =-\log\sigma\left( \beta\left[ \log\frac{\pi_\theta(y_w\mid x)}{\pi_{ref}(y_w\mid x)} - \log\frac{\pi_\theta(y_l\mid x)}{\pi_{ref}(y_l\mid x)} \right] \right).

这个式子可以从简单例子理解:

  • 如果模型相对参考模型更提高了 winner 的概率,第一项变大。
  • 如果模型相对参考模型更提高了 loser 的概率,第二项变大,会抵消优势。
  • 两者差值越大,说明模型越符合偏好数据。

DPO 的核心不是”让 winner 概率无限大”,而是”相对于参考模型,winner 应该比 loser 更受偏好”。这就是 KL 正则思想在偏好学习中的隐式体现。


进阶公式:互信息与表征学习

互信息把熵和 KL 散度结合在一起,回答”两个随机变量共享了多少信息”——在表征学习中用来评估状态表征是否保留了与任务回报相关的信息。

I(X;Y)=DKL(PXYPXPY)=H(X)H(XY).I(X;Y)=D_{KL}(P_{XY}\|P_XP_Y)=H(X)-H(X\mid Y).

在强化学习表征学习中,可以希望状态表征 ϕ(s)\phi(s) 和未来回报 GtG_t 有较高互信息:

I(ϕ(s);Gt) 较大.I(\phi(s);G_t) \text{ 较大}.

这表示表征中保留了和任务回报相关的信息。与此同时,也可能希望表征和无关噪声的互信息较低,从而提升泛化能力。

这类公式在基础算法中不一定直接出现,但在探索、表示学习、世界模型和无监督 RL 中很常见。


小结

本页汇总了 E.4 模块的核心公式:

公式类别核心等式/表达式直觉含义
KL-交叉熵-熵DKL(PQ)=H(P,Q)H(P)D_{KL}(P|Q)=H(P,Q)-H(P)多出来的编码成本就是分布差异
RLHF 目标maxπE[r]βDKL(ππref)\max_\pi \mathbb{E}[r]-\beta D_{KL}(\pi|\pi_{ref})追求奖励但别离参考模型太远
DPO 损失logσ(βlogπθ(yw)πref(yw)βlogπθ(yl)πref(yl))-\log\sigma(\beta\log\frac{\pi_\theta(y_w)}{\pi_{ref}(y_w)}-\beta\log\frac{\pi_\theta(y_l)}{\pi_{ref}(y_l)})相对概率差越大越好
互信息I(X;Y)=H(X)H(XY)=DKL(PXYPXPY)I(X;Y)=H(X)-H(X\mid Y)=D_{KL}(P_{XY}|P_XP_Y)知道 YYXX 不确定性减少了多少

下一篇E.4.6 公式速查与练习 —— 汇总本模块所有公式,用练习检验理解。

Built for reusable bilingual course delivery