Skip to content

E.4 信息论与分布距离

如果你训练过一个语言模型,你多半见过这样的场景:模型在两个回答之间犹豫不决,或者更新一步之后风格突然跑偏。这类问题的背后,其实是"怎么衡量一个分布有多随机"和"怎么衡量两个分布差多远"这两个基本问题——而回答它们的工具,就是信息论。

信息论本来是通信领域的基础课,但它在强化学习中几乎无处不在:策略探索需要熵,PPO 的稳定更新需要 KL 约束,RLHF 的对齐训练依赖交叉熵和 KL 散度,而 DPO 把这些工具重新包装成了优雅的偏好优化公式。

本节从最简单的概率事件出发,一路讲到 RLHF 和 DPO 的数学内核。

策略分布、熵与 KL 示意图

本节路线

文章数学节奏强化学习中的作用
E.4.1 自信息、熵与探索概率事件 → 自信息 → 熵衡量策略随机性和探索程度
E.4.2 交叉熵与 KL 散度编码代价 → 交叉熵 → KL衡量预测分布和策略分布的差异
E.4.3 KL 约束、RLHF 与 DPOKL 正则 → 对数概率比 → 偏好损失理解对齐训练中的策略约束
E.4.4 互信息与表征学习条件不确定性减少 → 互信息衡量表征中保留的任务相关信息
E.4.5 完整信息论公式KL、RLHF、DPO、互信息完整表达统一理解分布距离和偏好优化
E.4.6 小结、公式与练习公式汇总 → 误区 → 练习回顾并检查理解

Built for reusable bilingual course delivery