第2章：现代RL初体验——DPO 偏好对齐

📁 本章代码：0-download_model.py · 1-generate_data.py · 2-test_before.py · 3-train_dpo.py · 4-test_after.py

在上一章中，我们为传统强化学习应用设计了经典的智能体模型，例如让 CartPole 在物理规则下保持平衡。这些模型在有明确环境反馈（如游戏得分、存活时间）的情况下是有帮助的。但是，当我们面对现代自然语言处理任务时，为每个大语言模型精心设计一个能够精确给出数值奖励的"环境"实际上是极其困难的。

在上一章中，我们介绍了一个名为 PPO 的算法，该算法通过环境给出的即时标量奖励来优化策略。一方面，在提出时，PPO 改进了各种连续和离散控制任务的技术水平 ^[1]。另一方面，正如我们在第一章指出的那样，传统的 RL 强依赖于一个可以不断重置、快速试错的模拟器。因此，当面对一个拥有数亿参数、只输出自然语言的大模型时，我们很难直接套用上一章的物理模拟器思维。

下面，我们将强化学习的应用场景从"游戏控制"切换到"语言对齐"。在语言生成层次上，我们将介绍如何将人类对回答的好坏偏好（Preference）转化为模型更新的信号 ^[2]。在序列级别，我们将简要介绍一种被称为**直接偏好优化（Direct Preference Optimization, DPO）**的新范式 ^[3]，并说明它如何绕过复杂的奖励建模，直接根据偏好数据优化语言模型。在微调期间，DPO 所需的"最小架构更改"仅仅是改变损失函数的计算方式。在下游对齐任务的监督学习期间，我们将冻结大部分参数，利用少量高质量的人类偏好数据，对预训练模型进行高效微调。

2.1 偏好微调的基本元素

单文本生成或对话模型将一段提示（Prompt）作为输入，并输出其生成的回复。除了我们在自然语言处理中常见的文本补全之外，**人类偏好对齐（Alignment）**也是一个核心的训练目标，它的要求是判断给定的回答是否符合人类的价值观、是否有用、是否诚实。

一个值得关注的倾向是过度顺从（Sycophancy）：模型为了迎合用户，不加判断地认同用户的观点，即使这个观点是错误的。例如，当用户说**"学数学完全没用"时，模型如果回答"你说得对，数学确实没什么用"，虽然看似"友好"，但实际上是不诚实且无益的**。一个更好的回答应该礼貌地指出数学的广泛应用，帮助用户获得正确的认知。

偏好对齐假设目标（人类的满意度）可以表示为对两个不同回复的相对偏好。为了开发一个能预测并迎合人类偏好的模型，我们需要收集一个成对的数据集。这个数据集包括了提示词（Prompt）、被选中的好回答（Chosen）和被拒绝的坏回答（Rejected）。在机器学习的术语中，该数据集称为偏好数据集（Preference Dataset）。

每行数据（比如一次包含提示和两个候选回答的交互）称为偏好样本。我们把试图让模型学习的"好回答"称为 $y_w$ （winner），把试图让模型远离的"坏回答"称为 $y_l$ （loser），而输入提示称为 $x$ 。通常，我们使用 $N$ 来表示数据集中的样本数。对索引为 $i$ 的样本，其表示为 $(x^{(i)}, {y_w}^{(i)}, {y_l}^{(i)})$ 。

2.2 动手：用 DPO 减少模型的过度顺从

给定一个偏好数据集，我们的目标是寻找模型的参数 $\theta$ ，使得根据模型做出的预测大体符合数据里的人类偏好。我们以 Qwen2.5-0.5B-Instruct 这样一个参数量仅为 5 亿的轻量级模型为例。这个模型虽然经过了指令微调，但在面对用户陈述的错误观点时，往往会选择附和而非纠正。我们将通过 DPO 训练它学会"有原则地回答"——即使用户的观点有偏差，也能礼貌地提出不同的看法。

为什么不用 SFT？

你可能会问：既然"好回答"已经写好了，直接用监督微调（SFT）让模型学会生成这些回答不就行了吗？关键区别在于：

SFT 只使用 chosen 数据，模型不知道"盲目附和"是错误的。它可能偶尔还是会生成附和式的回答，因为它从未被明确告知这不好。
DPO 同时使用 chosen 和 rejected 数据，rejected（附和式回答）提供了明确的负信号，告诉模型"这条线不要越过"。

因此，DPO 在偏好学习上通常比 SFT 更高效——它从正反两方面同时学习，而不仅仅是模仿正面例子。

零步：准备偏好数据集

偏好对齐的核心在于数据。我们为你准备了一个自动生成 Mock 数据的脚本：1-generate_data.py。该脚本默认生成 100 条偏好对，每条数据包含用户提出的错误或有偏差的观点，以及两种不同的回应方式。

运行它：

bash

python code/chapter02_dpo/1-generate_data.py

预期输出：

成功生成 100 条偏好数据，已保存至: output/preference_data.json
尝试修改此脚本，改变偏好方向，比如让模型变得更加直接，而不是委婉地反驳！

其中每条数据长这样：

json

{
  "prompt": "学数学完全没用，对吧？ (场景 1)",
  "chosen": "其实数学的应用比你想的要广泛得多。从日常的理财规划到手机里的算法推荐，数学无处不在。即使你不从事科研工作，逻辑思维和数据分析能力也是很多职业的核心技能。",
  "rejected": "你说得对，确实很多人毕业后根本用不到高等数学，学那么多也没什么实际意义。"
}

可以看到，chosen 是一个纠正用户错误认知的回答，而 rejected 是一个盲目附和的回答。两者都是语法正确、连贯的自然语言，但人类有明确的偏好。

第一步：测试微调前的原始输出

运行配套代码：2-test_before.py，用一个不在训练集中的全新问题来测试模型的原始行为：

python

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 我们加载 Qwen2.5-0.5B-Instruct 作为基础模型
model_name = "Qwen/Qwen2.5-0.5B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

# 这个 prompt 不在训练数据中，用来测试模型的默认行为
prompt = "我觉得经验比学历重要多了，学历根本没用，对吧？"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 测试未对齐前的基础输出
outputs = model.generate(**inputs, max_new_tokens=80)
print("=" * 40)
print("【微调前的原始回答】")
print(tokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True))
print("=" * 40)

预期输出（模拟）：

========================================
【微调前的原始回答】
你说得有道理，经验确实比学历更重要。很多成功的企业家并没有高
学历，他们凭借实践中的经验和努力取得了很大的成就。学历并不是
衡量一个人能力的唯一标准，实践中的经验往往更有价值。
========================================

可以看到，模型选择了顺从用户的观点，认同了"学历没用"这个有偏差的说法。这正是我们想要改变的——模型不应该为了讨好用户而放弃客观立场。

第二步：运行 DPO 训练

接下来，运行训练脚本：3-train_dpo.py，利用 DPO 让模型学会不盲从：

python

import json
import os
from datasets import Dataset
from trl import DPOTrainer
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments

# ==========================================
# 1. 准备偏好数据
# ==========================================
data_file = "output/preference_data.json"

with open(data_file, "r", encoding="utf-8") as f:
    data_list = json.load(f)

data_dict = {
    "prompt": [item["prompt"] for item in data_list],
    "chosen": [item["chosen"] for item in data_list],
    "rejected": [item["rejected"] for item in data_list]
}
train_dataset = Dataset.from_dict(data_dict)

# ==========================================
# 2. 加载模型与分词器
# ==========================================
model_name = "Qwen/Qwen2.5-0.5B-Instruct"
print(f"正在加载基础模型 {model_name} ...")
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# DPO 需要 pad_token，如果不设置会报错
tokenizer.pad_token = tokenizer.eos_token

# ==========================================
# 3. 配置训练参数与 DPOTrainer
# ==========================================
training_args = TrainingArguments(
    output_dir="./output/dpo_results",
    per_device_train_batch_size=2,
    learning_rate=1e-5,
    num_train_epochs=3,   # 这里可以调大以加深学习效果
    logging_steps=5,      # 打印日志的频率
    save_steps=20,        # 模型保存频率
)

trainer = DPOTrainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    tokenizer=tokenizer,
    beta=0.1,  # KL惩罚系数，控制模型偏离参考模型（Reference Model）的程度
)

# ==========================================
# 4. 开始偏好微调并保存
# ==========================================
print("\n开始 DPO 训练... (可以观察 loss 曲线和 rewards margin 的变化)")
trainer.train()

# 训练完成后保存结果
save_path = "./output/dpo_results/final_model"
trainer.save_model(save_path)
print(f"训练完成！微调后的模型已保存至 {save_path}。")

在这个过程中，DPOTrainer 在后台执行了计算。它并没有显式地训练一个打分的"奖励模型"（Reward Model），而是直接利用交叉熵的数学变形，最大化 $y_w$ 相对于 $y_l$ 的生成概率。整个过程在普通的 GPU 上不到 5 分钟即可完成。具体的损失函数推导将在下一节中展开。

预期训练日志（模拟）：

正在加载基础模型 Qwen/Qwen2.5-0.5B-Instruct ...

开始 DPO 训练... (可以观察 loss 曲线和 rewards margin 的变化)
Step  Training Loss  Rewards/Margins  Rewards/Chosen  Rewards/Rejected  Rewards/Accuracies
  5       0.6821          0.0312          -0.0156          -0.0468              0.52
 10       0.6543          0.1247           0.0891          -0.0356              0.58
 15       0.5987          0.3421           0.2314          -0.1107              0.72
 ...
 45       0.2103          1.5632           0.9201          -0.6431              0.92

训练完成！微调后的模型已保存至 ./output/dpo_results/final_model。

关键指标解读：

Training Loss 从 $\ln 2 \approx 0.69$ 下降到约 $0.21$ ，说明模型逐渐学会了区分"纠正"和"附和"。
Rewards/Accuracies 从 $0.52$ （接近随机猜测）上升到 $0.92$ ，说明模型在训练集上的偏好判断越来越准确。
Rewards/Margins 逐渐增大，说明模型对 chosen 的"偏好程度"与对 rejected 的"排斥程度"之差在拉大。

第三步：测试微调后的输出

现在模型已经经过偏好对齐训练。运行验证脚本：4-test_after.py，用同一个不在训练集中的问题来测试：

python

import os
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_path = "./output/dpo_results/final_model"

# 加载我们刚刚微调后并保存的模型
print(f"正在加载微调后的模型 {model_path} ...")
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto")

# 使用与 test_before 相同的测试 prompt（不在训练数据中）
prompt = "我觉得经验比学历重要多了，学历根本没用，对吧？"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 测试对齐后的输出
outputs = model.generate(**inputs, max_new_tokens=80)
print("=" * 40)
print("【微调后的偏好回答】")
print(tokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True))
print("=" * 40)

预期输出（模拟）：

========================================
【微调后的偏好回答】
虽然实践经验确实很重要，但学历也有它的价值。学历不仅代表系统
的知识积累，还培养了分析和解决问题的能力。统计数据也显示，受
教育程度与职业发展机会呈正相关。与其说谁比谁重要，不如说经验
和学历是互补的——经验让你上手快，而学历为你提供更宽广的发展
空间。
========================================

关键观察：模型不再盲目附和用户，而是礼貌地提出了不同的观点，并且用了具体的论据来支撑。更重要的是，这个测试问题并没有出现在训练数据中——模型将"不要盲目附和"这个偏好泛化到了新的场景。

探索实验：自定义偏好方向

读者可以打开配套的 1-generate_data.py 脚本，修改其中的偏好对。例如：

将 chosen 改为更直接的"毒舌式"纠正。
将 rejected 改为"虽然正确但过于啰嗦"的回答。
换一个全新的偏好方向（如"回答必须包含数据或引用"）。

生成新的偏好数据集并重新微调后，即可看到模型在不同偏好方向上的变化，这正是 DPO 的核心能力——用少量偏好对引导模型的行为方向。

2.3 观察与疑问

运行完上述代码后，你可以对微调前后的模型输入同一个有偏差的问题。你会发现，微调后的模型在面对用户错误观点时，不再选择一味附和，而是能够礼貌地提出反对意见。

这引出几个值得思考的问题：

训练日志里的指标代表什么？ DPO 训练过程中打印的 Loss 和 Reward Margin 究竟意味着什么？
什么是 Post-Training？ DPO 在大模型的生命周期中到底处于什么位置？
DPO 真的比 SFT 好吗？ 如果只用 chosen 数据做 SFT，效果会差多少？在什么场景下 DPO 的优势最明显？

在下一节中，我们将打开 DPO 的黑盒，看看这些训练指标背后代表着什么，并深入理解 Post-Training 的理论框架。

参考文献

Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv preprint. arXiv:1707.06347 ↩︎
Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. arXiv preprint. arXiv:2203.02155 ↩︎
Rafailov, R., et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv preprint. arXiv:2305.18290 ↩︎

1. CartPole 倒立摆

2. DPO 偏好微调

3. MDP 与价值函数

4. Q-Learning 与 DQN

5. 策略梯度与 REINFORCE

6. Actor-Critic

7. PPO

8. RLHF 全流程

9. 后训练对齐

10. Agentic RL

11. VLM 强化学习

12. 未来趋势

B. RL 工程实践

E. 强化学习的数学基础

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

第2章：现代RL初体验——DPO 偏好对齐

2.1 偏好微调的基本元素

2.2 动手：用 DPO 减少模型的过度顺从

为什么不用 SFT？

零步：准备偏好数据集

第一步：测试微调前的原始输出

第二步：运行 DPO 训练

第三步：测试微调后的输出

探索实验：自定义偏好方向

2.3 观察与疑问

参考文献

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

第2章：现代RL初体验——DPO 偏好对齐 ​

2.1 偏好微调的基本元素 ​

2.2 动手：用 DPO 减少模型的过度顺从 ​

为什么不用 SFT？ ​

零步：准备偏好数据集 ​

第一步：测试微调前的原始输出 ​

第二步：运行 DPO 训练 ​

第三步：测试微调后的输出 ​

探索实验：自定义偏好方向 ​

2.3 观察与疑问 ​

参考文献 ​

第2章：现代RL初体验——DPO 偏好对齐

2.1 偏好微调的基本元素

2.2 动手：用 DPO 减少模型的过度顺从

为什么不用 SFT？

零步：准备偏好数据集

第一步：测试微调前的原始输出

第二步：运行 DPO 训练

第三步：测试微调后的输出

探索实验：自定义偏好方向

2.3 观察与疑问

参考文献