附录 B:强化学习工程实践指南
学会了 RL 算法之后,你会发现真正的挑战不在算法,而在工程。模型装不进一张卡、训练跑了一整天 loss 还在涨、评测分数和预期完全不符——这些问题在任何一本 RL 教材里都找不到答案,但在实际工作中你会天天遇到。
本附录每节只说清楚一件事。按需跳转即可。
本附录结构
| 节 | 主题 | 它解决什么问题 |
|---|---|---|
| B.1 RL 训练系统:采样、异步与分布式 | RL 训练系统怎么跑起来 | 采样瓶颈、rollout engine、异步训练、权重同步、DP/TP/PP/EP |
| B.2 Agentic RL 基础设施 | Agentic RL 需要什么基础设施 | 沙箱、轨迹存储、工具执行、多轮调度、Relax 案例 |
| B.3 RL 后训练与 Agentic RL Benchmark | 怎么知道模型和 Agent 有没有变好 | 后训练评测、Agentic benchmark、训练监控、Badcase 归因、上线门禁 |
| B.4 大模型 RL 训练指标词典 | 训练日志里的指标是什么意思 | PPO/GRPO/DPO/RM 训练指标按功能分组,含异常信号和框架差异 |
| B.5 工业岗位练习 | 后训练与 RL 岗位能力 | 按中美欧岗位要求拆解真实工作、能力地图和 8 个工业练习 |
阅读建议
- 如果你在做 LLM 后训练:按 B.1 → B.3 → B.4 顺序阅读
- 如果你在做 Agentic RL:按 B.1 → B.2 → B.3 顺序阅读
- 如果你在做游戏/机器人 RL:重点看 B.1 的非 LLM RL 部分和 B.3 的监控部分
- 如果你在准备面试:直接看 B.5 的练习,遇到盲区再往回翻
- 如果你在查指标含义:直接看 B.4 指标词典,按需查阅