E.4.6 信息论公式速查与练习
前置知识:本页汇总 E.4 模块所有公式,建议在读完 E.4.1 到 E.4.5 后再来回顾。如果你是第一次读,先跳到正文章节。
这一页汇总 E.4 模块用到的所有公式,方便回顾。建议先读完前面几篇正文再来查表。
本书中你会遇到的信息论公式
| 概念 | 公式 | 强化学习含义 |
|---|---|---|
| 自信息 | 低概率事件包含更多信息 | |
| 熵 | 策略随机性、探索程度 | |
| 熵奖励 | 鼓励探索,避免过早确定 | |
| 交叉熵 | 分类训练、奖励模型训练 | |
| KL 散度 | 衡量新旧策略差异 | |
| 交叉熵-KL 关系 | KL 是额外编码成本 | |
| KL 惩罚 | PPO/RLHF 中限制策略漂移 | |
| RLHF 目标 | $J(\pi)=\mathbb{E}\pi[r(x,y)]-\beta D{KL}(\pi_\theta|\pi_{ref})$ | 奖励最大化与参考模型约束 |
| DPO 损失 | $\mathcal{L}{DPO}=-\mathbb{E}[\log\sigma(\beta\log\frac{\pi\theta(y_w\mid x)}{\pi_{ref}(y_w\mid x)}-\beta\log\frac{\pi_\theta(y_l\mid x)}{\pi_{ref}(y_l\mid x)})]$ | 用偏好数据优化相对概率 |
| 互信息 | 表征是否保留任务相关信息 |
小结
这一页的层次是:从”概率越小信息量越大”和”策略越均匀熵越高”开始,推广到交叉熵、KL、RLHF 正则目标和 DPO 损失。读复杂信息论公式时,先问:它在衡量随机性、预测误差,还是两个策略分布之间的距离?
常见误区
- 把熵理解成噪声。 熵高表示策略更随机,可能有助于探索,但并不等于策略更差。
- 把 KL 当成普通距离。 KL 不对称, 和 强调的错误不同。
- 以为 KL 约束只是数学装饰。 在 RLHF 中,KL 项直接决定模型能偏离参考模型多远。
小练习
- 比较 和 ,哪个熵更大?为什么?
- 若旧策略为 ,新策略为 ,写出 的展开式。
- 在 RLHF 目标 中, 变大时,策略更新会更激进还是更保守?