E.4.5 KL、RLHF、DPO 与互信息完整公式
这一页汇总 E.4 模块的完整公式,方便回顾。建议先读完前面几篇正文再来查表。
KL、交叉熵和熵的关系
前面分别看过熵、交叉熵和 KL 散度。它们其实被一个等式串在一起——这个等式是理解所有后续公式的基础。
展开验证:
合并求和:
这说明 KL 散度可以理解为:如果真实分布是 ,但你用 来编码,会比最优编码多付出多少额外信息。
在机器学习中:
- 最小化交叉熵 。
- 当 固定时,等价于最小化 。
这就是分类模型、奖励模型、语言模型训练中交叉熵损失的数学基础。
进阶公式:RLHF 中的 KL 正则目标
这一节把 KL 散度放到 RLHF 的完整优化目标中——奖励项把模型往高分回答推,KL 项像安全绳把模型拉回参考模型附近。
RLHF 的策略优化常写成:
其中:
- 是奖励模型给回答 的分数。
- 是当前要优化的策略模型。
- 是参考模型,通常是 SFT 模型。
- 控制”追求奖励”和”别偏离参考模型”之间的权衡。
如果 太小,模型容易为了奖励过度偏移,出现 reward hacking;如果 太大,模型几乎不敢改变,学习效果弱。
进阶公式:DPO 的对数概率比
DPO 不显式训练奖励模型再跑 PPO,而是直接用偏好数据优化策略。它的核心工具是对数概率比——比较当前模型相对于参考模型对某个回答的偏好程度。
对于一个偏好样本 ,其中 是更好的回答, 是较差回答,DPO 损失常写成:
这个式子可以从简单例子理解:
- 如果模型相对参考模型更提高了 winner 的概率,第一项变大。
- 如果模型相对参考模型更提高了 loser 的概率,第二项变大,会抵消优势。
- 两者差值越大,说明模型越符合偏好数据。
DPO 的核心不是”让 winner 概率无限大”,而是”相对于参考模型,winner 应该比 loser 更受偏好”。这就是 KL 正则思想在偏好学习中的隐式体现。
进阶公式:互信息与表征学习
互信息把熵和 KL 散度结合在一起,回答”两个随机变量共享了多少信息”——在表征学习中用来评估状态表征是否保留了与任务回报相关的信息。
在强化学习表征学习中,可以希望状态表征 和未来回报 有较高互信息:
这表示表征中保留了和任务回报相关的信息。与此同时,也可能希望表征和无关噪声的互信息较低,从而提升泛化能力。
这类公式在基础算法中不一定直接出现,但在探索、表示学习、世界模型和无监督 RL 中很常见。
小结
本页汇总了 E.4 模块的核心公式:
| 公式类别 | 核心等式/表达式 | 直觉含义 |
|---|---|---|
| KL-交叉熵-熵 | 多出来的编码成本就是分布差异 | |
| RLHF 目标 | 追求奖励但别离参考模型太远 | |
| DPO 损失 | 相对概率差越大越好 | |
| 互信息 | 知道 后 不确定性减少了多少 |
下一篇:E.4.6 公式速查与练习 —— 汇总本模块所有公式,用练习检验理解。