E.4 信息论与分布距离

如果你训练过一个语言模型，你多半见过这样的场景：模型在两个回答之间犹豫不决，或者更新一步之后风格突然跑偏。这类问题的背后，其实是"怎么衡量一个分布有多随机"和"怎么衡量两个分布差多远"这两个基本问题——而回答它们的工具，就是信息论。

信息论本来是通信领域的基础课，但它在强化学习中几乎无处不在：策略探索需要熵，PPO 的稳定更新需要 KL 约束，RLHF 的对齐训练依赖交叉熵和 KL 散度，而 DPO 把这些工具重新包装成了优雅的偏好优化公式。

本节从最简单的概率事件出发，一路讲到 RLHF 和 DPO 的数学内核。

策略分布、熵与 KL 示意图

本节路线