E.4.6 信息论公式速查与练习
前置知识:本页汇总 E.4 模块所有公式,建议在读完 E.4.1 到 E.4.5 后再来回顾。如果你是第一次读,先跳到正文章节。
这一页汇总 E.4 模块用到的所有公式,方便回顾。建议先读完前面几篇正文再来查表。
本书中你会遇到的信息论公式
| 概念 | 公式 | 强化学习含义 |
|---|---|---|
| 自信息 | $I(x)=-\log p(x)$ | 低概率事件包含更多信息 |
| 熵 | $H(P)=-\sum_x p(x)\log p(x)$ | 策略随机性、探索程度 |
| 熵奖励 | $J=\mathbb{E}[G]+\beta H(\pi)$ | 鼓励探索,避免过早确定 |
| 交叉熵 | $H(P,Q)=-\sum_x P(x)\log Q(x)$ | 分类训练、奖励模型训练 |
| KL 散度 | $D_{KL}(P|Q)=\sum_x P(x)\log\frac{P(x)}{Q(x)}$ | 衡量新旧策略差异 |
| 交叉熵-KL 关系 | $D_{KL}(P|Q)=H(P,Q)-H(P)$ | KL 是额外编码成本 |
| KL 惩罚 | $\text{reward}-\beta D_{KL}$ | PPO/RLHF 中限制策略漂移 |
| RLHF 目标 | $J(\pi)=\mathbb{E}\pi[r(x,y)]-\beta D{KL}(\pi_\theta|\pi_{ref})$ | 奖励最大化与参考模型约束 |
| DPO 损失 | $\mathcal{L}{DPO}=-\mathbb{E}[\log\sigma(\beta\log\frac{\pi\theta(y_w\mid x)}{\pi_{ref}(y_w\mid x)}-\beta\log\frac{\pi_\theta(y_l\mid x)}{\pi_{ref}(y_l\mid x)})]$ | 用偏好数据优化相对概率 |
| 互信息 | $I(X;Y)=H(X)-H(X\mid Y)$ | 表征是否保留任务相关信息 |
小结
这一页的层次是:从”概率越小信息量越大”和”策略越均匀熵越高”开始,推广到交叉熵、KL、RLHF 正则目标和 DPO 损失。读复杂信息论公式时,先问:它在衡量随机性、预测误差,还是两个策略分布之间的距离?
常见误区
- 把熵理解成噪声。 熵高表示策略更随机,可能有助于探索,但并不等于策略更差。
- 把 KL 当成普通距离。 KL 不对称, 和 强调的错误不同。
- 以为 KL 约束只是数学装饰。 在 RLHF 中,KL 项直接决定模型能偏离参考模型多远。
小练习
- 比较 和 ,哪个熵更大?为什么?
- 若旧策略为 ,新策略为 ,写出 的展开式。
- 在 RLHF 目标 中, 变大时,策略更新会更激进还是更保守?