E.4.6 信息论公式速查与练习

前置知识：本页汇总 E.4 模块所有公式，建议在读完 E.4.1 到 E.4.5 后再来回顾。如果你是第一次读，先跳到正文章节。

这一页汇总 E.4 模块用到的所有公式，方便回顾。建议先读完前面几篇正文再来查表。

本书中你会遇到的信息论公式

概念	公式	强化学习含义
自信息	$I(x)=-\log p(x)$	低概率事件包含更多信息
熵	$H(P)=-\sum_x p(x)\log p(x)$	策略随机性、探索程度
熵奖励	$J=\mathbb{E}[G]+\beta H(\pi)$	鼓励探索，避免过早确定
交叉熵	$H(P,Q)=-\sum_x P(x)\log Q(x)$	分类训练、奖励模型训练
KL 散度	$D_{KL}(P\|Q)=\sum_x P(x)\log\frac{P(x)}{Q(x)}$	衡量新旧策略差异
交叉熵-KL 关系	$D_{KL}(P\|Q)=H(P,Q)-H(P)$	KL 是额外编码成本
KL 惩罚	$\text{reward}-\beta D_{KL}$	PPO/RLHF 中限制策略漂移
RLHF 目标	$J(\pi)=\mathbb{E}\pi[r(x,y)]-\beta D{KL}(\pi_\theta\|\pi_{ref})$	奖励最大化与参考模型约束
DPO 损失	$\mathcal{L}{DPO}=-\mathbb{E}[\log\sigma(\beta\log\frac{\pi\theta(y_w\mid x)}{\pi_{ref}(y_w\mid x)}-\beta\log\frac{\pi_\theta(y_l\mid x)}{\pi_{ref}(y_l\mid x)})]$	用偏好数据优化相对概率
互信息	$I(X;Y)=H(X)-H(X\mid Y)$	表征是否保留任务相关信息

这一页的层次是：从”概率越小信息量越大”和”策略越均匀熵越高”开始，推广到交叉熵、KL、RLHF 正则目标和 DPO 损失。读复杂信息论公式时，先问：它在衡量随机性、预测误差，还是两个策略分布之间的距离？