Skip to content

附录 B:强化学习工程实践指南

学会了 RL 算法之后,你会发现真正的挑战不在算法,而在工程。模型装不进一张卡、训练跑了一整天 loss 还在涨、评测分数和预期完全不符——这些问题在任何一本 RL 教材里都找不到答案,但在实际工作中你会天天遇到。

本附录每节只说清楚一件事。按需跳转即可。

本附录结构

主题它解决什么问题
B.1 RL 训练系统:采样、异步与分布式RL 训练系统怎么跑起来采样瓶颈、rollout engine、异步训练、权重同步、DP/TP/PP/EP
B.2 Agentic RL 基础设施Agentic RL 需要什么基础设施沙箱、轨迹存储、工具执行、多轮调度、Relax 案例
B.3 RL 后训练与 Agentic RL Benchmark怎么知道模型和 Agent 有没有变好后训练评测、Agentic benchmark、训练监控、Badcase 归因、上线门禁
B.4 大模型 RL 训练指标词典训练日志里的指标是什么意思PPO/GRPO/DPO/RM 训练指标按功能分组,含异常信号和框架差异
B.5 工业岗位练习后训练与 RL 岗位能力按中美欧岗位要求拆解真实工作、能力地图和 8 个工业练习

阅读建议

  • 如果你在做 LLM 后训练:按 B.1 → B.3 → B.4 顺序阅读
  • 如果你在做 Agentic RL:按 B.1 → B.2 → B.3 顺序阅读
  • 如果你在做游戏/机器人 RL:重点看 B.1 的非 LLM RL 部分和 B.3 的监控部分
  • 如果你在准备面试:直接看 B.5 的练习,遇到盲区再往回翻
  • 如果你在查指标含义:直接看 B.4 指标词典,按需查阅

Built for reusable bilingual course delivery