强化学习工程实践指南

学会了 RL 算法之后，你会发现真正的挑战不在算法，而在工程。模型装不进一张卡、训练跑了一整天 loss 还在涨、评测分数和预期完全不符——这些问题在任何一本 RL 教材里都找不到答案，但在实际工作中你会天天遇到。
本附录每节只说清楚一件事。按需跳转即可。

本附录结构

节	主题	它解决什么问题
B.1 RL 训练系统：采样、异步与分布式	RL 训练系统怎么跑起来	采样瓶颈、rollout engine、异步训练、权重同步、DP/TP/PP/EP
B.2 Agentic RL 基础设施	Agentic RL 需要什么基础设施	沙箱、轨迹存储、工具执行、多轮调度、Relax 案例
B.3 RL 后训练与 Agentic RL Benchmark	怎么知道模型和 Agent 有没有变好	后训练评测、Agentic benchmark、训练监控、Badcase 归因、上线门禁
B.4 大模型 RL 训练指标词典	训练日志里的指标是什么意思	PPO/GRPO/DPO/RM 训练指标按功能分组，含异常信号和框架差异
B.5 工业岗位练习	后训练与 RL 岗位能力	按中美欧岗位要求拆解真实工作、能力地图和 8 个工业练习