Skip to content

E.4.6 信息论公式速查与练习

前置知识:本页汇总 E.4 模块所有公式,建议在读完 E.4.1E.4.5 后再来回顾。如果你是第一次读,先跳到正文章节。


这一页汇总 E.4 模块用到的所有公式,方便回顾。建议先读完前面几篇正文再来查表。

本书中你会遇到的信息论公式

概念公式强化学习含义
自信息I(x)=logp(x)I(x)=-\log p(x)低概率事件包含更多信息
H(P)=xp(x)logp(x)H(P)=-\sum_x p(x)\log p(x)策略随机性、探索程度
熵奖励J=E[G]+βH(π)J=\mathbb{E}[G]+\beta H(\pi)鼓励探索,避免过早确定
交叉熵H(P,Q)=xP(x)logQ(x)H(P,Q)=-\sum_x P(x)\log Q(x)分类训练、奖励模型训练
KL 散度DKL(PQ)=xP(x)logP(x)Q(x)D_{KL}(P|Q)=\sum_x P(x)\log\frac{P(x)}{Q(x)}衡量新旧策略差异
交叉熵-KL 关系DKL(PQ)=H(P,Q)H(P)D_{KL}(P|Q)=H(P,Q)-H(P)KL 是额外编码成本
KL 惩罚rewardβDKL\text{reward}-\beta D_{KL}PPO/RLHF 中限制策略漂移
RLHF 目标$J(\pi)=\mathbb{E}\pi[r(x,y)]-\beta D{KL}(\pi_\theta|\pi_{ref})$奖励最大化与参考模型约束
DPO 损失$\mathcal{L}{DPO}=-\mathbb{E}[\log\sigma(\beta\log\frac{\pi\theta(y_w\mid x)}{\pi_{ref}(y_w\mid x)}-\beta\log\frac{\pi_\theta(y_l\mid x)}{\pi_{ref}(y_l\mid x)})]$用偏好数据优化相对概率
互信息I(X;Y)=H(X)H(XY)I(X;Y)=H(X)-H(X\mid Y)表征是否保留任务相关信息

小结

这一页的层次是:从”概率越小信息量越大”和”策略越均匀熵越高”开始,推广到交叉熵、KL、RLHF 正则目标和 DPO 损失。读复杂信息论公式时,先问:它在衡量随机性、预测误差,还是两个策略分布之间的距离?


常见误区

  1. 把熵理解成噪声。 熵高表示策略更随机,可能有助于探索,但并不等于策略更差。
  2. 把 KL 当成普通距离。 KL 不对称,DKL(PQ)D_{KL}(P\|Q)DKL(QP)D_{KL}(Q\|P) 强调的错误不同。
  3. 以为 KL 约束只是数学装饰。 在 RLHF 中,KL 项直接决定模型能偏离参考模型多远。

小练习

  1. 比较 [0.5,0.5][0.5,0.5][0.9,0.1][0.9,0.1],哪个熵更大?为什么?
  2. 若旧策略为 [0.5,0.5][0.5,0.5],新策略为 [0.8,0.2][0.8,0.2],写出 DKL(πoldπnew)D_{KL}(\pi_{old}\|\pi_{new}) 的展开式。
  3. 在 RLHF 目标 E[r]βDKL\mathbb{E}[r]-\beta D_{KL} 中,β\beta 变大时,策略更新会更激进还是更保守?

Built for reusable bilingual course delivery