9.7 工业界后训练实践全景

把 DPO、GRPO、RLVR 放到真实公司里看，会发现后训练已经不是一个单独算法，而是一整套生产系统：数据合成、SFT、偏好优化、可验证奖励、在线 rollout、工具环境、评测、拒答和安全策略会混在一起迭代。下面按公开资料梳理截至 2026-05-06 能查到的主流做法，并重点拆解每家公司公开材料中可以学习的方法环节：任务构造、环境封装、奖励设计、SFT/RL 衔接、训练稳定性和能力回填。

国内大厂与主流实验室

MiniMax

资料入口：[MiniMax M2.1: Post-Training Experience and Insights for Agent Models]^[1]、[MiniMax-M1]^[2]、[WebExplorer]^[3]

MiniMax 的公开资料应该分三条线读：M2.1 的 agent 后训练经验、MiniMax-M1 的长思考 RL scaling、WebExplorer 的长程网页 agent 数据合成与 RL。三份资料覆盖了代码 agent、应用开发 agent、网页搜索 agent 和长上下文 reasoning model，不应只概括成“可验证环境 + reward”。

1. M2.1 的 SWE Scaling：从 GitHub 原始数据到可运行 RL 环境。

动机：软件工程任务天然可验证，但原始 GitHub 数据不能直接训练 agent。一个 issue、PR 或 commit 只有文本和代码差异，不等于 RL 样本；必须恢复仓库状态、构造任务描述、准备依赖、确定验证命令，才能变成“模型行动 -> 环境反馈 -> reward”的闭环。

数据构造可以拆成五步：

挖掘真实事件：从 GitHub merged PR、commit、issue、测试变更和代码 diff 中筛出有明确修复目标的样本。
改写任务形态：SWE-Resolve 要求模型修 bug 或实现需求；SWE-Test 反过来要求模型写测试，使其在补丁前失败、补丁后通过；SWE-Review 要求模型审查代码变更并指出问题。
封装可执行环境：checkout 到补丁前状态，安装依赖，准备测试命令，构建 Docker / sandbox，保证模型提交 patch 后可以自动验证。
补齐训练字段：生成 original problem description、test-case reward、runnable environment 等字段，形成既可 SFT 又可 RL 的样本。
扩语言和场景：M2.1 报告里提到覆盖 10+ 主要编程语言、10,000+ runnable PRs 和 140,000+ variable tasks。

奖励设计也要按任务类型拆：

SWE-Resolve：主 reward 是测试是否通过，同时检查是否破坏已有测试、是否修改无关文件、是否只硬编码测试。
SWE-Test：测试必须在 patch 前失败、patch 后通过，才能说明测试确实覆盖目标 bug。
SWE-Review：它不是完全可执行任务，只能近似验证，例如用另一个 LLM 检查 review 是否命中真实问题，同时控制 hallucination rate。

关键方法是“把一个真实开发事件改写成多个等价任务”。这样同一份 GitHub 数据可以产出修复、测试、审查等多种训练信号。

Multi-scaffold 是 M2.1 的另一条主线。scaffold 指 agent 外层执行框架，例如上下文管理方式、工具调用协议、反思/计划模板、文件编辑接口。如果 SFT 和 RL 都只在一个 ReAct loop 上做，模型会过拟合这个 loop 的格式。MiniMax 的做法是用 multi-scaffold rejection sampling 生成 SFT 数据，并在 RL 中让不同 scaffold 参与 rollout。

最小复现可以先准备两到三种简单 scaffold：直接 ReAct、plan-then-edit、test-driven loop；同一批 SWE 任务分别跑这些 scaffold，保留成功轨迹做 SFT，再在 RL 中随机 scaffold，让模型学任务本身而不是学模板。

2. M2.1 的 AppDev：从固定测试转向 Agent-as-a-Verifier。

动机：“从零开发应用”很难预写完整测试。一个前端/后端/移动端应用是否完成，不只看函数输出，还要看能否启动、交互是否正确、视觉是否合理、业务逻辑是否闭环。

专家数据：MiniMax 引入 experts-in-the-loop。前端、后端、Android、iOS 专家负责设计 prompts、meta-queries、rubric-based rewards 和系统提示。专家提示里包含最佳实践；训练时可以把系统提示从轨迹中去掉，让模型把专家启发蒸馏进默认行为。

Reward 三层结构：

Execution level：检查代码是否能编译、启动、运行。
Interaction level：通过 Playwright 等工具真实点击页面、输入表单、检查状态变化，判断业务逻辑是否正确。
Visual level：按相对一致的审美标准评分，例如布局是否明显错位、关键信息是否可见、交互控件是否可用。

和普通 LLM-as-a-judge 的区别：judge 不是只看静态截图或最终文本，而是作为 agent 进入 sandbox 交互。

最小复现可以做一个 Todo App / 登录页 / 数据表格任务集：给模型需求，让它生成项目；自动 npm install && npm run dev；用 Playwright 跑 5-10 个交互检查；最后用 rubric judge 补视觉和需求覆盖评分。

3. WebExplorer：解决长程网页 agent 缺少难题数据的问题。

动机：现有开源 web agents 在 BrowseComp、GAIA、WebWalkerQA、FRAMES 等复杂信息检索任务上弱，一个核心原因是缺少高质量、长程、可训练的数据。人工写这类题很贵；简单 query evolution 又容易变成不自然的问题；图构造方法需要复杂的节点扩展和启发式选择。

核心思路：WebExplorer 用 model-based exploration 让强模型自主探索信息空间，再用 iterative long-to-short query evolution 生成更难的问题。

WebExplorer-QA 的合成流程可以按“探索”和“演化”两阶段理解：

探索阶段：从 Wikipedia seed entities 出发，在 prompt 中给三个 BrowseComp-en 的 QA exemplars，让模型围绕 seed entity 执行 search / browse，构建一个局部信息空间。这个阶段不是直接产题，而是让模型找到相关实体、网页、事实链和潜在可问的答案。
演化阶段：做 long-to-short query evolution。初始问题通常包含较多显式线索，后续迭代逐步删除或压缩显著信息，让问题更短、更隐含、更需要多步搜索。论文使用 5 次 evolution，最终合成约 40K WebExplorer-QA。
设计重点：先探索出答案和证据，再把问题变难，而不是凭空写难题。

训练 recipe 分两段：

冷启动 SFT：先教模型正确使用 search / browse 工具，并形成基本长程搜索格式。论文用 Qwen3-8B 作为底座，约 13K SFT 样本，batch size 32，learning rate 1e-5，训练 4 epochs。
GRPO 阶段：不需要人工轨迹，只需要合成 QA 对，让模型自己探索不同搜索路径。论文用约 12K 样本做 GRPO，每组 8 rollouts，batch size 64，learning rate 1e-6，并逐步把最大响应长度扩到 128K、最大工具调用轮数扩到 100。

Reward 公式是复合形式：R = 0.2 * R_format + R_correct。

R_format：检查工具调用、思考结构、回答格式是否符合协议。
R_correct：用 DeepSeek-V3 作为自动 judge，根据 ground-truth answer 判断最终回答是否正确。
权重动机：web agent RL 中，如果不奖励格式，模型会在 search / browse 协议上漂；如果只奖励格式，模型会学会空转工具。所以格式只占小权重，正确性是主信号。

最小复现可以这样做：选 500-1000 个 Wikipedia seed entities；为每个 seed 让强模型用搜索工具探索 5-10 个相关网页并产出候选 QA；用另一个模型过滤答案不唯一、证据不足、过于简单的问题；做 2-3 轮 query compression，把显式实体名、日期、地点等线索逐步隐藏；保留答案和证据 URL；用 1K-5K 轨迹做 SFT，让 7B/8B 模型学会 search/browse 格式；再用 1K QA 做 GRPO，reward 用格式检查 + LLM judge / exact match。

评估指标至少看三项：平均工具调用轮数是否增加、正确率是否提升、是否出现无效搜索循环。

4. MiniMax-M1：长思考 RL 的效率问题。

动机：M1 不是在讲 agent 环境，而是在解决 test-time compute scaling 太贵的问题。长 CoT 输出到 64K、80K、100K token 时，普通 attention 和普通 RL 都会非常昂贵。

模型与 RL：M1 用 hybrid MoE + Lightning Attention 支持 1M 输入上下文和 40K/80K thinking budget，再用 CISPO 做高效 RL。CISPO 的要点是 clip importance sampling weights，而不是直接 clip token updates；这样在长响应里仍然保留所有 token 的梯度贡献，并降低方差。

数据和 curriculum：

继续预训练：从 MiniMax-Text-01 继续训练，强化 STEM、代码、书籍、reasoning、长上下文。
SFT 冷启动：注入 CoT 模式，为 RL 做起步策略。
RL 数据混合：可验证任务包括数学、竞赛编程、SynLogic 生成的 41 类逻辑任务、SWE-bench 派生的软件工程 sandbox；不可验证任务如 QA、创意写作，则用生成式 reward model 反馈。
逐步扩长度：扩到 80K 输出时，不是直接放开长度，而是从 40K 逐步扩到 48K、56K、64K、72K、80K。
晋级指标：用生成序列 perplexity 是否收敛、99 分位输出长度是否逼近窗口上限等指标判断是否进入下一阶段。
数据筛选：报告还提到使用 40K 模型筛数据、移除过易样本、增加困难数学和代码比例、下采样会导致重复同质化的 synthetic reasoning 数据。

可复现重点不是复刻 512 H800，而是在小模型上验证三件事：长输出训练要逐步扩窗口；过易样本要过滤，否则没有 RL 信号；合成 reasoning 数据如果模式太单一，会让长上下文 RL 变得重复和不稳定。

阿里 Qwen / 通义

资料入口：[Qwen2.5 Technical Report]^[4]、[Qwen2.5-Math]^[5]、[QwQ-32B]^[6]、[Qwen3]^[7]、[Qwen3-Coder]^[8]、[Qwen3-Coder-Next]^[9]、[Tongyi DeepResearch]^[10]

Qwen 的资料应该分成四层读：通用 instruct 后训练、数学自改进、reasoning RL、agentic coding / deep research。它的价值在于公开材料把“可验证任务”和“通用体验回填”都讲到了，而不是只停在某个 GRPO 名字上。

1. Qwen2.5：先把通用 instruct 做成多阶段后训练。

Qwen2.5 报告的 post-training 不只是 SFT。它先用百万级监督样本覆盖通用问答、代码、数学、多语言、结构化数据分析、长文本生成和安全，再做多阶段 RL。这里的 motivation 是：base model 有知识，但不会稳定按照用户意图输出；单轮 SFT 又容易把模型训练成“会答但不够偏好对齐”。因此 Qwen2.5 把 instruction following、长文本、结构化输出、专业能力和人类偏好分阶段处理。最小复现时，应把通用 SFT 数据按能力域分桶，而不是混成一个大 JSONL；每个桶都保留独立 eval，例如长文摘要、JSON 输出、代码、数学、拒答和多语言。

2. Qwen2.5-Math：数学后训练的核心是 CoT / TIR 自改进闭环。

这份报告的 motivation 是普通 CoT 在精确计算、符号操作和算法推理上会出错，所以 Qwen2.5-Math 同时训练 Chain-of-Thought 和 Tool-Integrated Reasoning。数据构造不是只收集人工解题，而是让模型生成候选 CoT / TIR 解法，再用答案解析器、Python executor、majority voting 和 reward model 筛选。Qwen2.5-Math-RM-72B 被用作数学 reward model，既服务 rejection sampling，也服务后续 RL。

TIR 的训练细节尤其重要。模型生成的 token 包括自然语言思考、Python 代码、工具返回和最终答案；其中 executor 返回不是模型自己写的内容，训练时要 mask 掉 executor output token 的 loss。否则模型会学到错误目标：把环境返回当作自己应生成的文本。RL 阶段使用 GRPO，在数学题上用规则 verifier / reward model 打分，并用 KL 系数约束策略漂移。报告里还强调 Qwen2.5-Math 主要面向中英文数学，不建议当通用聊天模型用，这说明专业后训练会带来能力偏置，之后若要产品化必须做通用能力回填。

最小复现路径是：选 GSM8K / MATH / OlympiadBench 子集；让强模型为每题生成 4-16 条 CoT 和 Python TIR 候选；用答案 parser、sympy、Python 执行和 majority vote 过滤；把正确轨迹做 SFT；再对每题采样 8 个响应，用规则 verifier 给 0/1 或部分分，做 GRPO。对 TIR 数据单独处理 loss mask，并记录工具错误率、格式错误率和最终答案正确率。

3. QwQ-32B： outcome-based reward 的两阶段 RL。

QwQ-32B 的公开博客把 RL 拆得很清楚：从 cold-start checkpoint 出发，第一阶段只扩 math 和 coding RL，不用传统 reward model，而是数学 accuracy verifier 和代码执行服务器。数学 reward 看最终答案是否正确；代码 reward 看生成代码是否通过预定义测试。这个阶段的目标是把“能不能解题”推上去。

第二阶段再做 general capabilities RL，奖励来自 general reward model 和一部分 rule-based verifier，用少量步数提升 instruction following、人类偏好对齐和 agent performance，同时避免数学和代码明显回落。这是一个非常实用的 recipe：先在高置信可验证任务上放大能力，再用通用偏好和规则数据修复体验。最小复现时，第一阶段可以只用数学和代码，第二阶段混入 5%-20% 通用指令/偏好/安全数据，观察 math、code、chat、agent 四类 eval 是否互相挤压。

4. Qwen3：thinking / non-thinking 的统一后训练。

Qwen3 的关键不是单纯“用了 GRPO”，而是把思考模式做成产品可控能力。后训练前两阶段是 long-CoT cold-start 和 reasoning RL：cold-start 用少量高质量长思考数据教格式、推理组织和答案边界；reasoning RL 用 query-verifier pairs 做 GRPO。报告披露了筛 query-verifier pair 的四条标准：不能出现在 cold-start 数据里；对 cold-start 模型可学习；尽量有挑战；覆盖广泛子领域。最终收集 3,995 个 query-verifier pairs，并强调大 batch、每题多 rollout、off-policy 提升样本效率，以及通过控制 entropy 稳住探索和利用。

后两阶段解决“模型只会长想”的问题。Qwen3 把有 reasoning path 和没有 reasoning path 的数据合成统一训练集，让模型同时支持 thinking 和 non-thinking；最后用 general-domain RL 回填通用能力、安全、多语言和工具体验。这个顺序对应一个可复现模板：先训练 <think> 格式和长 CoT；再只在 verifier 高置信任务上做 RL；然后混入短回答、普通聊天和工具指令，让模型学会什么时候不展开长思考；最后评估平均输出长度、正确率、用户偏好和非思考模式质量。

5. Qwen3-Coder / Tongyi DeepResearch：从答案 RL 进入过程 RL。

Qwen3-Coder 的训练对象是 repository-level action：读文件、定位 bug、写 patch、运行测试、处理失败、提交修改。reward 的主信号来自单测、静态检查、编译、issue 需求覆盖和 patch 合理性。Tongyi DeepResearch 的训练对象是 search / read / synthesize 过程：任务不是回答一个事实，而是搜索证据、去重来源、比较冲突信息、组织带引用的报告。它们共同说明 Qwen 的 agent 后训练已经把“prompt -> answer”改成“environment episode -> verified outcome”。可复现时先做小规模 SWE-bench Lite 或网页 QA：固定工具协议，保留成功轨迹做 SFT，再用测试通过率或 answer judge 做 RL。

Moonshot Kimi

资料入口：[Kimi k1.5]^[11]、[Kimi K2]^[12]、[Kimi-Researcher]^[13]

Kimi 的三条公开线索分别对应 reasoning scaling、开放 agentic model、research agent。这里最值得拆的是 k1.5 和 Kimi-Researcher：前者回答“长思考 RL 怎么稳定”，后者回答“研究型 agent 怎么从端到端 RL 里长出来”。

1. Kimi k1.5：不用 MCTS / value function / process RM，也能做长思考 RL。

k1.5 的 motivation 是训练 test-time compute scaling。它没有把系统做得特别复杂，而是强调一个简洁框架：policy 采样多个响应，reward 只看 outcome，policy optimization 在 KL 约束下把高 reward 轨迹概率推高。报告明确把它和 MCTS、value function、process reward model 区分开：重点不是训练一个逐步打分器，而是让模型在足够多 rollout 中自己探索更有效的推理路径。

数据上，k1.5 把任务分成可验证和偏好型两类。数学、代码、选择题更适合 rule / execution verifier；开放问答、写作、复杂偏好需要 reward model 或 judge。训练时同一 prompt 会采样多个候选，reward 后形成相对优劣，再用 policy mirror descent 更新。可复现的关键是让采样数足够大，因为单个响应的 reward 噪声很高；同题多采样才能看出“哪些推理路径更稳”。

2. 长度奖励：解决 overthinking，而不是简单砍 max tokens。

k1.5 报告专门讨论 overthinking：模型学会长 CoT 后，可能把 token 写得越来越多，甚至在已经得到答案后继续绕。它的 length reward 不是无条件奖励短，而是在同一题的多个候选里比较：正确答案中更短的响应得到额外奖励；错误答案不会因为短而被奖励，甚至长且错会被惩罚。这个设计把“正确且高效”写进 reward，而不是只靠 generation max length。

length reward 还要 warm up。训练早期模型还不会稳定解题，如果过早惩罚长度，会压制探索，模型可能学不到完整推理；等准确率上来后再加入长度项，才能把长思考压缩成有效思考。最小复现实验可以这样做：前 30%-50% RL steps 只用 correctness reward；之后在每题的正确样本里按长度排序，把较短正确解加 0.1-0.3 奖励，把过长错误解扣分；同时监控准确率和平均 response length，确认不是靠变短牺牲正确率。

3. Long-to-short：先学会想，再学会少写。

k1.5 的 long-to-short 思路和 length reward 配套。第一阶段允许模型用很长推理拿到正确答案，得到复杂问题的策略；第二阶段通过蒸馏、偏好或长度奖励，把冗余步骤压掉。这个流程和“直接训练短答案模型”不同：短模型要保留长模型学到的搜索和自检能力，只减少无用表达。复现时可以保留长 CoT 成功轨迹，然后让强模型或同模型生成 concise solution，做一轮 SFT / DPO，再用 verifier 确认短解仍然正确。

4. Kimi K2：agentic intelligence 的数据和工具闭环。

K2 的公开报告强调 open agentic intelligence，重点不是单 benchmark，而是让模型在工具、代码和复杂任务里具备行动能力。对应的后训练样本应包含任务目标、工具协议、观察、动作、错误恢复和最终结果。K2 的学习点是 agent 数据不能只靠人工写演示，必须结合真实任务、合成任务、工具执行结果、verifier 和 judge，不断筛出成功轨迹，再回流到 SFT / RL。

5. Kimi-Researcher：研究 agent 的 reward 要覆盖证据链。

Kimi-Researcher 面向长程研究任务。它的训练单位是一个 research episode：模型提出搜索计划，调用搜索/浏览工具，阅读多个来源，提取证据，合并冲突信息，写出带引用的回答。最终 reward 不能只看“答案像不像”，还要看引用是否存在、证据是否支持结论、来源是否覆盖关键角度、是否遗漏反例、是否重复搜索低价值网页。最小复现路径是：构造 200-500 个需要多网页证据的问题；用浏览器工具记录轨迹；让 judge 分别打 evidence coverage、citation correctness、answer faithfulness、redundant-search penalty；先 SFT 成功轨迹，再用 episode-level reward 做 GRPO / DPO。

字节 Seed / Doubao

资料入口：[Seed1.5-Thinking]^[14]、[VAPO]^[15]、[DAPO]^[16]、[DAPO GitHub]^[17]、[UI-TARS]^[18]、[UI-TARS GitHub]^[19]、[UI-TARS-2]^[20]、[Seed Prover 1.5]^[21]、[Seed1.8]^[22]

字节 Seed 的公开材料适合学习两类东西：reasoning RL 的工程补丁，以及 GUI / prover 这类环境型 agent 后训练。DAPO、VAPO、UI-TARS-2 都不是只给算法名，而是在回答“为什么大规模 rollout 会不稳”。

1. Seed1.5-Thinking：reasoning model 的基础配方。

Seed1.5-Thinking 的目标是用 RL 提升数学、代码和复杂推理。它的任务构造仍以可验证题为主：数学看答案，代码看执行，逻辑题看规则 verifier。SFT 阶段先给模型长 CoT 冷启动，RL 阶段再通过 outcome reward 放大可验证能力。这个模式和 DeepSeek-R1、Qwen3 类似，但 Seed 系列后续报告更强调训练系统、采样和 advantage 处理。

2. DAPO：把 GRPO 难训点拆成四个补丁。

DAPO 的 motivation 是开源社区复现大规模 reasoning RL 时，常见失败不是因为 GRPO 公式不会写，而是因为样本、clip、长度和梯度归一化细节没处理好。它在 GRPO 上加四个关键组件。

Dynamic Sampling 处理“没有学习信号”的 prompt。如果同一题采样的所有答案全对或全错，组内 reward 方差接近零，advantage 没意义。DAPO 会持续采样或过滤，直到 batch 里保留有非零 advantage 的组，把算力放在边界题上。Clip-Higher 处理探索被 PPO clip 压住的问题：长 CoT 中某些低概率 token 可能打开新解法，如果上界太紧，正确但罕见的推理路径无法被充分强化；因此它把 eps_clip_high 设得高于下界，例如常见配置是 low 0.2、high 0.28。

Token-Level Policy Gradient 处理长响应被样本级平均稀释的问题。普通 sequence-level loss 会让长 CoT 的关键 token 和无关 token 一起平均，信号变弱；DAPO 改成按 token 聚合，让长推理链中每个生成 token 都更直接参与优化。Overlong Reward Shaping 处理超过长度限制的噪声样本：如果模型写满上下文还没完成，不能简单把截断文本当正常失败样本，否则 reward 噪声很大；需要对过长响应做分段惩罚、遮罩或单独 shaping。

最小复现路径是：用 Qwen2.5-7B/32B base、AIME/MATH 类可验证题、每题 8-16 个 rollout；先跑普通 GRPO 作为 baseline；再依次加入 dynamic sampling、clip-higher、token-level loss、overlong shaping；记录有效 prompt 比例、entropy、平均长度、AIME pass@1 和训练崩溃次数。DAPO 的价值正是在这种 ablation 中体现。

3. VAPO：value model 不是不能用，关键是长 CoT 的 advantage 要重做。

VAPO 研究的是 value-model-based RL。长 CoT 下，GAE 容易把最终稀疏 reward 衰减到前面 token，长短响应的 advantage 尺度也不一致。报告的 ablation 很有信息量：移除 decoupled GAE 会导致奖励信号指数衰减并大幅掉点；Length-Adaptive GAE 根据序列长度调节 GAE 参数，让短响应和长响应都能收到合适 credit；token-level policy gradient 给长响应更合理权重；positive-example LM loss 用正样本的语言模型损失稳住策略；group sampling 用较少 prompt、更多 repetition 提高组内比较质量。报告中还给出类似 epsilon_low=0.2、epsilon_high=0.28、positive LM loss weight 0.1、512 prompts 每个 16 samples 这类可复现实验级参数。

VAPO 的小型复现不必先训练大 value model，可以先做一个简化实验：同一批数学题分别用 GRPO 和带 value baseline 的 PPO/VAPO 风格训练，比较长答案任务上 advantage 方差、reward 延迟衰减和最终正确率。重点不是追求 SOTA，而是观察长序列 RL 里 credit assignment 如何影响训练稳定性。

4. UI-TARS：GUI agent 先靠轨迹和偏好学基本操作。

UI-TARS 的输入是截图/界面状态、历史动作和任务目标，输出是点击、输入、滚动等 GUI action。它面临的数据问题是高质量 action trace 极少。公开资料里可学习的方法是用大量虚拟机探索真实软件任务，从构造指令出发生成轨迹，再做规则过滤、VLM 评分和人工复核。Reflection tuning 把错误恢复也纳入训练：标注员指出轨迹中哪一步错了，并给出纠正动作或恢复步骤，再用 DPO 这类偏好优化让模型偏向能修正错误的策略。

5. UI-TARS-2：多轮 RL、混合环境和数据飞轮。

UI-TARS-2 的 motivation 是 GUI-only agent 不足以完成真实任务：很多工作流还需要文件系统、终端、下载文件、读取本地数据。它引入 hybrid GUI environment，把 GUI、file system、terminal 放在统一 sandbox 里，并用大规模 rollout 平台支持多轮 RL。数据 flywheel 的逻辑是：模型生成新轨迹，高质量轨迹进入 SFT，低质量但有学习价值的数据进入 continual pre-training 或后续探索；每轮模型变强后，再产生更难、更长的轨迹。

这类系统的 reward 需要多层：最终任务是否完成，界面状态是否达到目标，文件是否生成，终端命令是否成功，动作是否无效或越界，回合数是否过多，是否违反安全边界。最小复现可以用 MiniWoB / BrowserGym / OSWorld 子集：定义统一 action schema；每个任务提供 reset、observe、step、success check；用 200 条人工或强模型轨迹做 SFT；再用多轮 rollout + success reward 做 RL；额外收集失败轨迹训练 reflection。

6. Seed Prover 1.5：形式化证明环境里的 agentic RL。

形式化数学的环境是 theorem prover，而不是浏览器。动作是选择 tactic、生成 lemma、调用搜索器；reward 是 proof 是否通过、证明长度、搜索步数和中间 lemma 是否复用。它给 agent RL 的启发是：只要环境能验证，就可以把复杂任务变成可训练 episode。Seed1.8 则把 reasoning、multimodal、tools 和 generalized agent 能力放进同一模型卡，说明后训练目标正在从“题库正确率”扩展到“多环境任务执行”。

DeepSeek

资料入口：[DeepSeekMath]^[23]、[DeepSeek-R1]^[24]、[DeepSeek-V3.2]^[25]

DeepSeek 的公开材料是理解 GRPO / RLVR 的主线之一。DeepSeekMath 先给出 critic-free 的组内相对优势，R1 再证明纯规则 reward 可以诱发长思考，V3.2 则把可验证任务推进到 agentic task synthesis。

1. DeepSeekMath：GRPO 的最小可复现版本。

DeepSeekMath-RL 从 DeepSeekMath-Instruct 7B 出发，使用约 144K 个与 GSM8K、MATH 相关的 CoT 问题做 RL。每个问题采样一组输出，用 reward model / 规则正确性打分，再用组内均值和标准差归一化形成 advantage。这样省掉 PPO 的 critic/value model，显存和训练复杂度更低。报告中的典型设置包括 policy learning rate 1e-6、KL coefficient 0.04、每题 64 个输出、max length 1024、batch size 1024，并在每轮 exploration 后做一次 policy update。

GRPO 的直觉是：模型不需要知道“这个答案绝对值是多少”，只需要知道“同一题的这一组答案里哪个更好”。数学题天然适合，因为同题多采样会产生正确、错误、格式错、半对等候选。最小复现可以用 7B 数学 SFT 模型、MATH 子集、每题 8-16 个 rollout、答案 parser 打分；先用组内 reward 标准化，再加 KL 到参考模型，观察 GSM8K/MATH 提升和通用能力损失。DeepSeekMath 的经验是，SFT 后已经很强的模型，仍能通过 RL 获得 out-of-domain reasoning 提升。

2. DeepSeek-R1-Zero：直接从 base model 做规则 RL。

R1-Zero 的 motivation 是验证长 CoT 是否必须来自人工 SFT。它从 base model 直接做 RL，奖励主要是 accuracy reward 和 format reward：数学/代码题看最终答案或执行结果，格式 reward 保证模型按约定输出。训练后出现反思、回溯、自我验证、延长思考等行为，说明一部分 reasoning pattern 可以由 outcome reward pressure 诱发。

R1-Zero 的局限也很重要：可读性差、语言混杂、输出格式不稳定。这说明“纯 RL 能探索能力上限”，但不等于产品 recipe。复现实验时，应把 R1-Zero 当成研究实验：从 base model 出发，只用可验证数学/代码题，避免开放问答；评估除了正确率，还要看格式失败、重复、语言混杂和平均长度。

3. DeepSeek-R1：cold-start + reasoning RL + rejection sampling + final RL。

R1 正式版回到更工程化的四段式。第一步用少量高质量 cold-start 数据修正格式、可读性和基本长思考结构；第二步做 reasoning-oriented RL，继续在数学、代码、逻辑等可验证任务上强化；第三步用训练后的模型做 rejection sampling，生成更多 SFT 数据，同时混入写作、事实问答、角色扮演等通用数据，避免模型只会解题；第四步做最终 RL，同时优化 helpfulness、harmlessness 和 reasoning。

这条流水线的核心教训是“能力和体验分开塑造，再合并”。可验证 RL 推高数学/代码，但会带来啰嗦、风格漂移和通用聊天退化；rejection sampling 和 final RL 是能力回填。最小复现可以用 1K cold-start 长 CoT、20K 可验证题 RL、再从 RL 模型采样并筛 10K 通用 SFT 数据，最后混合安全/偏好数据做一轮 DPO 或 GRPO。评估要同时看 math/code、普通指令、拒答、平均长度和格式稳定性。

4. DeepSeek-V3.2：从答案 verifier 到 agentic verifier。

V3.2 的方向是让模型在工具环境中合成和完成 agentic tasks。这里的训练样本不是单个答案，而是带工具调用、环境观察、失败恢复和最终交付的 episode。reward 不只看最终文本，还看工具调用是否成功、是否找到证据、代码是否通过测试、任务是否在环境里真的完成。它和 MiniMax M2.1、UI-TARS-2、LongCat 属于同一趋势：RLVR 正从 math verifier 扩展到 software / browser / GUI / tool verifier。

智谱 Z.ai / GLM

资料入口：[GLM-4.5]^[26]、[GLM-5]^[27]

GLM 的主线是 ARC：Agentic、Reasoning、Coding。GLM-4.5 先证明这三类能力可以放在一个 MoE 模型里共同优化；GLM-5 则把后训练 recipe 讲得更清楚：multi-task SFT 之后，按 Reasoning RL、Agentic RL、General RL 顺序推进，并用异步 RL 基础设施提高长程交互训练效率。

1. GLM-4.5：hybrid reasoning 和 expert model iteration。

GLM-4.5 支持 thinking 和 direct response 两种模式。这个设计的 motivation 和 Qwen3 类似：复杂题需要长思考，普通助手场景不能每次都展开冗长 CoT。后训练阶段通过 expert model iteration 和 RL 同时提升 agentic、reasoning、coding。expert iteration 可以理解为“先让专项强模型产生或筛选高质量数据，再回流训练统一模型”；RL 则在数学、代码、工具和 agent benchmark 上继续放大可验证能力。

2. GLM-5：Reasoning RL -> Agentic RL -> General RL。

GLM-5 的公开报告明确写出 progressive alignment：先 multi-task SFT，引入 interleaved thinking modes；再做 reasoning RL；再做 agentic RL；最后 general RL 做人类风格对齐。Reasoning RL 主要处理数学、逻辑、代码这类 outcome verifier 高置信任务，先把长链推理和自检能力推上去。Agentic RL 把模型接入多轮工具环境、文件系统、代码库和软件工程任务，让模型学习“观察 -> 行动 -> 环境反馈 -> 修正”。General RL 最后回填普通聊天、简洁性、安全、指令跟随和风格，减少前两段带来的啰嗦和能力偏置。

3. 异步 agent RL：把 generation 和 training 解耦。

GLM-5 引入新的 asynchronous RL infrastructure，并使用 slime 的可定制 rollout interface。长程 agent rollout 的耗时差异很大：有的任务只需一轮，有的要跑测试、调用工具、等待环境。同步 PPO/GRPO 会让训练端等最慢 episode。GLM-5 的思路是把 rollout generation、环境交互、verifier 分支和训练解耦，让不同任务的经验可以持续进入训练队列。slime 的 server-based rollout execution 允许为不同任务写 multi-turn loop、tool invocation、environment feedback handling、verifier-guided branching，而不改底层训练栈。

4. On-policy cross-stage distillation：防止分阶段训练遗忘。

分阶段 RL 的风险是：Reasoning RL 学到的能力在 Agentic RL 或 General RL 中被冲掉。GLM-5 用 on-policy cross-stage distillation 在后续阶段保留前阶段强能力：当前策略在线生成数据，前一阶段能力作为蒸馏目标或筛选信号参与训练。最小复现可以做三段小实验：MATH/代码 GRPO 得到 reasoning 模型；SWE-bench Lite 或工具任务 RL 得到 agentic 模型；最后混入通用指令做 DPO/GRPO，同时用第一阶段模型在数学题上的输出做 distillation，观察数学是否回退。

腾讯混元 Hunyuan

资料入口：[Hunyuan-T1]^[28]、[Hunyuan-A13B]^[29]、[Hunyuan-A13B-Instruct Model Card]^[30]

混元公开资料可以拆成 T1 的 reasoning RL 和 A13B 的 fast/slow thinking instruct model。A13B 技术报告细节披露不如 MiniMax/MiMo 那么完整，但 T1 页面给出了若干训练稳定性线索，足够作为 reasoning RL 系统设计参考。

1. Hunyuan-T1：把大部分 post-training compute 投给 RL。

T1 明确说 post-training 阶段 96.7% 的算力投入在 reinforcement learning，目标是提升纯推理和人类偏好对齐。任务来源覆盖数学、逻辑推理、科学、代码等 world science and reasoning problems，并结合 ground-truth feedback。这里的 reward 主体仍是可验证信号：数学答案、逻辑题规则、代码执行、科学题标准答案或 judge。公开资料没有给出完整 reward 公式，但说明它不是单一聊天偏好 RL，而是 reasoning-heavy RL。

2. curriculum、context expansion 和 token efficiency。

T1 的训练计划使用课程学习：逐步提高数据难度，并逐步扩展上下文长度，让模型既提升推理能力，也学会更有效地使用 token。这个设计和 MiniMax-M1 / Qwen3 的长思考训练一致：不能一开始就把最大长度、最难题和复杂 reward 全部打开，否则训练早期会被噪声和超长输出拖垮。复现时可以把数学/代码题按难度分三段，先短 CoT + 中等题，再长 CoT + 难题，最后加入长度/效率评价。

3. data replay、periodic policy reset 和统一 reward。

T1 公开材料提到参考 data replay 和 periodic policy resetting，使长期训练稳定性提升超过 50%。这说明混元在处理长时间 RL 的策略漂移：data replay 防止模型忘掉早期能力；policy reset 则在策略偏离过大或出现退化时，把模型拉回更稳定的 checkpoint / reference。偏好对齐阶段采用 self-reward + reward model：早期 T1-preview 作为 self-reward 评估器，对输出进行综合评分，再叠加 reward model，引导模型自我改进。可复现时可以维护一个 replay buffer，混入旧阶段高质量样本；每 N 步评估 entropy、格式错、平均长度和通用 eval，一旦退化就回滚或重置 reference。

4. Hunyuan-A13B：fast / slow thinking 的产品形态。

A13B-Instruct 模型卡展示了 slow-thinking 默认开启，也可以通过 enable_thinking=False 关闭 CoT。这说明后训练数据要同时包含两类响应：带 <think> 的慢思考轨迹，以及直接回答的快思考轨迹。否则模型要么每次都慢想，要么复杂问题推理不足。最小复现可以在同一批 prompt 上构造两份标签：复杂题保留思考过程，简单问答只给短答；SFT 后在 RL / DPO 中加入“是否需要 thinking”的偏好，评估复杂题正确率和简单题平均长度。

百度 ERNIE

资料入口：[ERNIE 4.5 Technical Report]^[31]、[ERNIE 5.0]^[32]

ERNIE 4.5 的后训练披露很有结构：LLM post-training 是 SFT + RL，RL 阶段用 Progressive RL 和 Unified Preference Optimization；VLM post-training 则是三段 SFT + 一段 reasoning RL。ERNIE 的价值在于把多任务、多 reward、多模态后训练的“兼容性”问题讲得比较清楚。

1. SFT：先覆盖任务域，再进入 RL。

ERNIE 4.5 的 SFT 覆盖通用指令、逻辑、数学、代码、专业任务、安全和多模态理解。这里的关键不是数据量，而是每个能力域要有可评测目标。对 LLM 来说，SFT 让模型学会基本回答格式和任务能力；对 VLM 来说，三段 SFT 分别强化视觉感知、复杂视觉推理，以及 thinking / non-thinking 数据混合。多模态模型如果直接进 RL，很容易把视觉识别错误和推理错误混在一起，所以先用 SFT 把 perception 打稳。

2. Unified Rewarding System：把 rule、sandbox、RDRM、GRM 等奖励放进同一框架。

ERNIE 4.5 图示里列出 rule-based reward、RLLM、sandbox、RDRM、checklist-aware verifier、GRM、DRM 等组件。它要解决的是 reward 来源异构：数学题可能是规则答案；代码题是 sandbox 执行；开放问答是 generative reward model；安全/清单任务是 checklist verifier；偏好任务是 discriminative reward model。若不做 domain normalization，不同 reward 尺度会互相压制。ERNIE 的统一奖励系统可以抽象成三步：先按任务域选择 verifier / RM；再把 reward 归一化到可比较尺度；最后按训练阶段控制不同任务权重。

3. Progressive RL：Logic RL -> Reasoning RL -> General RL。

ERNIE 4.5 把 LLM RL 分成 Stage 1 Logic RL、Stage 2 Reasoning RL、Stage 3 General RL。Logic RL 用更干净、规则性更强的任务稳定推理格式；Reasoning RL 扩展到数学、代码、复杂推理；General RL 回填普通指令、人类偏好和安全。这个顺序和 GLM-5 / Qwen3 的“先能力、再泛化”一致。最小复现可以按这个顺序组织数据：先 2K 逻辑/符号题，后 10K 数学/代码题，最后 10K 通用偏好题；每阶段单独评估前一阶段能力是否被覆盖。

4. UPO：多任务 RL 的尺度和稳定性。

Unified Preference Optimization 的动机是混合 reasoning tasks 和 non-reasoning tasks 时，reward-format、domain normalization、informative prompt filtering 都会影响训练。数学/代码 0-1 reward、偏好分数、安全分数不能直接相加。UPO 的复现思路是：为每个任务域维护 reward normalization；过滤没有信息量的 prompt；对不同 reward source 做分域权重；训练时记录各域 reward 均值和方差，避免某一类任务主导更新。

5. ERNIE 5.0：把后训练扩展到统一多模态。

ERNIE 5.0 继续面向文本、图像、视频、语音统一模型。这里最大的难点是 reward 可比性和模态平衡：图像理解 reward、视频时序 reward、文本偏好 reward、语音任务 reward 的错误来源完全不同。复现时不要把多模态题简单拼成文本 JSON，而要为每种模态准备感知 eval、推理 eval 和偏好 eval，再统一做阶段式 SFT/RL。

阶跃星辰 StepFun

资料入口：[Step3]^[33]、[STEP3-VL-10B]^[34]、[Step-DeepResearch]^[35]

StepFun 的公开资料覆盖多模态 reasoning 和 deep research agent。STEP3-VL-10B 披露了一个紧凑 10B VLM 怎么靠 scaled post-training 追近更大模型；Step-DeepResearch 则属于研究型 agent 训练。

1. STEP3-VL-10B：fully unfrozen 预训练后，用 1K+ RL iteration 做视觉推理。

这份报告的 motivation 是小模型也能在多模态复杂推理上接近大模型，但需要把视觉语言协同和后训练一起设计。模型先在 1.2T multimodal tokens 上做统一、完全解冻的预训练，把 perception encoder 和 Qwen3-8B decoder 对齐；post-training 阶段再做超过 1K iterations 的 reinforcement learning。这里的关键是：VLM 的 RL 不是只训文本答案，而是让视觉证据、文本推理和答案生成一起被 reward 约束。

2. RLVR + RLHF：可验证视觉题和开放偏好分开处理。

视觉数学、OCR 后计算、图表读数、选择题、几何/空间题可以做 RLVR：答案能规则验证，或能由程序/标准答案检查。开放式图片描述、复杂审美、视觉安全和解释质量更适合 RLHF / judge reward。复现时可以把数据分成两桶：第一桶用 MathVista、ChartQA、OCR-VQA、几何题做 exact / numeric verifier；第二桶用多模态 judge 给 helpfulness、faithfulness、detail、safety 打分。不要把两类 reward 直接相加，先分域归一化。

3. PaCoRe：并行生成视觉假设，再协调答案。

Parallel Coordinated Reasoning 的目标是扩展 test-time compute。多模态任务里，错误常来自“看错图”而不是“不会推理”。PaCoRe 让模型探索多个视觉假设或推理路径，再合成更可靠的答案。训练上对应两个信号：候选路径要多样且有证据，最终整合要正确且不幻觉。小型复现可以做 self-consistency 的多模态版：同一张图采样多条证据链，用 verifier / judge 选出正确链，再 SFT 模型学习“列出候选视觉证据 -> 交叉检查 -> 给答案”。

4. Step-DeepResearch：训练研究过程而不是报告模板。

Deep research agent 的任务包括搜索、浏览、证据抽取、冲突比较、引用和长文组织。SFT 阶段应使用高质量 research trajectories，教模型如何规划 query、如何读来源、如何记录证据；RL 阶段的 reward 则要拆成 answer correctness、citation existence、evidence support、source coverage、redundant search penalty、final report structure。复现时可以用 300 个多来源问题、一个搜索 API、一个浏览器提取器和 citation checker，先训练轨迹格式，再对最终答案和引用证据做 episode-level reward。

美团 LongCat

资料入口：[LongCat-Flash-Thinking-2601]^[36]

LongCat-Flash-Thinking-2601 是一份很像“agent RL 工程系统设计说明”的报告。它的核心不是某个 reward 公式，而是环境扩展、强化学习扩展、噪声鲁棒训练和 heavy thinking。

1. 环境扩展：从领域定义自动生成可解工具环境。

LongCat 的 motivation 是真实 agent 场景太多，手工适配 prompt、工具链和环境接口成本极高。它构建覆盖 20+ 领域、上万情境的环境生成系统：输入领域定义，自动合成 60+ 工具、数据库 schema、工具调用接口和验证逻辑。覆盖的场景包括文件管理、数据分析、电商零售、电信服务等。这个设计把“训练数据”变成“可交互环境图谱”。

环境生成最难的是一致性。一个复杂环境可能有几十个数据库和工具参数依赖，若随机生成任务，容易出现“看似可解、实际无解”。LongCat 使用可解路径优先：先随机采样一条长工具调用链作为黄金工具链；围绕这条链构造任务和数据库状态；再用 BFS 受控扩展环境子图，保证新工具的前序依赖已存在；根据环境复杂度和剩余工具动态加入新黄金链；如果工具数不足 20，就从全局工具库补一条中等规模可用链。这个方法的可复现重点是：先保证至少一条成功路径存在，再扩环境，而不是先造环境再祈祷任务可解。

2. 冷启动数据：真实轨迹和双路合成。

LongCat 在 RL 前把预训练/微调目标重新定义为“给 RL 提供冷启动策略”。有真实数据的领域，如数学和编码，通过质量控制和可执行验证筛选高质量轨迹；缺真实数据的领域，如搜索和工具使用，使用文本驱动合成和环境锚定合成。文本驱动合成从任务描述出发生成轨迹；环境锚定合成从已有工具链和数据库状态出发生成任务，保证任务能被环境验证。复现时可以先做一个 5 个工具的小环境：订单查询、退款、库存、用户信息、日志；先采样黄金链，再让模型生成任务和轨迹。

3. DORA：全异步流式 RL。

Agent rollout 耗时差异巨大，同步训练会浪费大量 GPU。DORA 支持多版本模型并行探索，不同版本产生的经验随产随收进样本队列；训练器无需等待所有任务完成。调度上拆成轻量 Rollout Manager 和多个 Rollout Controller，后者各自管理虚拟 rollout 组，通过数据并行处理环境交互。环境部署通过扩展 PyTorch RPC，把环境实例化到 CPU 空闲机器上。

为适配 5600 亿参数 MoE，DORA 还做 Prefill-Decode 解耦和 KV-cache 交换。PD 解耦把长上下文 prefill 和 decode 放到不同设备组，避免多轮交互中 prefill 阻塞 decode；KV-cache 以 chunk 级聚合、异步传输、计算重叠和 CPU 驻留方式动态交换，减少重复计算。资源分配上做双层平衡：整体按环境难度调 rollout 配额，批内保证任务域多样性。报告称这种系统达到传统同步训练 2-4 倍效率，并支持千步以上稳定训练。

4. 噪声鲁棒训练：把真实世界扰动提前注入。

LongCat 主动注入工具超时、工具报错、返回缺字段、数据库不一致、指令歧义、需求变更等扰动，让模型学习恢复。reward 不应只看最终成功，也要奖励错误检测、重新计划、换工具、向用户澄清。最小复现可以在工具环境里随机让 10%-30% 调用失败或返回部分字段，训练模型根据错误码重试、改参数或走备用链；评估 clean success rate 和 noisy success rate 的差距。

5. Heavy Thinking：宽度和深度一起扩展。

LongCat 的重思考模式不是只把单条 CoT 拉长，而是先生成多条推理/行动路径，再用总结模型分析、筛选和整合。它适合复杂 agent 任务，因为单一路径一旦早期工具选择错，后面会越走越偏。小型复现可以让模型对同一工具任务采样 3-5 条计划，用 verifier / judge 选最佳计划或合并计划，再执行。训练时把“候选路径 -> 比较 -> 最终计划”的轨迹回流 SFT / RL。

蚂蚁 Ling / Ring

资料入口：[Ling-1T]^[37]、[Ring-1T]^[38]

1. 披露边界：模型发布多，完整 recipe 少。

Ling / Ring 的公开材料更偏模型发布和推理效率，没有像 DeepSeek-R1、Qwen3 或 MiniMax M2.1 那样展开完整后训练流水线。因此这一节更适合作为“产业信号”阅读，而不是直接复刻训练配方。

2. 可学习点：deep thinking 和推理效率要一起设计。

能明确学习到的是两点：第一，trillion-scale MoE 模型也会把 deep thinking / insight 类能力作为 post-training 目标，而不是只做聊天对齐；第二，长序列推理和高效推理部署要一起考虑。

3. 最小复现：fast / slow thinking 数据拆桶。

复现时主要借鉴 fast/slow thinking 数据设计：为复杂数学、代码、分析题保留长思考轨迹，为普通问答保留短答；用偏好数据惩罚无意义长思考，并用 eval 同时看正确率和 token cost。

华为 Pangu

资料入口：[Pangu Ultra]^[39]、[Pangu Pro MoE]^[40]、[盘古开源新闻]^[41]

1. 披露边界：硬件和开源体系讲得更多。

Pangu 公开信息的重点在昇腾原生训练、MoE 稀疏效率和开源模型体系，后训练细节没有像 R1/Qwen/MiniMax 那样展开。

2. 可学习点：后训练 recipe 要受部署硬件约束。

可学习点是硬件和训练 recipe 的耦合：如果模型要部署在 Ascend NPU 上，post-training 不能只看算法，还要考虑 MoE 路由、长上下文显存、推理吞吐和快慢思考的成本。

3. 最小复现：把成本指标放进 eval。

复现层面可以把它作为“工程约束型后训练”案例：同一个 reasoning 模型同时评估正确率、激活专家数、平均输出长度、吞吐和部署成本。

01.AI Yi

资料入口：[Yi-Lightning]^[42]

1. 传统产品级 RLHF 路线。

Yi-Lightning 披露的是传统产品级 LLM 后训练线：pre-training 之后做 SFT 和 RLHF，并强调 multi-stage training、synthetic data construction、reward modeling，以及 RAISE 安全框架贯穿 pre-training、post-training 和 serving。它不像 agent 报告那样提供工具环境 recipe，但适合学习“聊天模型如何被人类偏好拉齐”。

2. 最小复现：SFT -> RM -> PPO / DPO。

可复现时可以做三段：用高质量中文/英文指令做 SFT；为同一 prompt 采样多个回答，人工或 judge 排序训练 reward model；再做 PPO/DPO，并单独评估 Chinese、Math、Coding、Hard Prompts 和 safety。

3. 评估提醒：不要只看静态 benchmark。

Yi-Lightning 还提醒一点：静态 benchmark 和真实人类偏好会有差距，后训练指标不能只看题库。

InternLM / 上海 AI Lab

资料入口：[InternLM2]^[43]

1. 传统 RLHF 工程化：数据治理比算法名字更关键。

InternLM2 是开源社区理解传统 RLHF 工程化的重要参考。它的重点不是长 CoT RLVR，而是数据治理、SFT、reward modeling 和 online RLHF。

2. COOL：条件化偏好，避免平均人风格。

COOL（Conditional Online RLHF）的动机是偏好优化会让模型在不同任务域上漂移：某些用户喜欢简洁，某些任务需要详细，安全场景又要保守。条件化训练让模型根据任务条件、偏好条件或数据域调整优化目标，而不是把所有偏好压成一个平均人。

3. 最小复现：给偏好数据加 domain / style / safety 条件。

最小复现可以这样做：为每条偏好数据标注 domain / style / safety 条件；训练 reward model 时把条件作为输入；在线 RLHF 时按条件采样 prompt 和 reward；评估时分域看 helpfulness、harmlessness、verbosity 和中文能力。

学习点：即使没有可执行 verifier，偏好 RL 也要做数据分桶和条件控制，否则模型容易向单一风格塌缩。

百川 Baichuan 与 360 智脑

资料入口：[Baichuan 2]^[44]、[360Zhinao]^[45]

1. Baichuan2：中文开源语境下的 SFT -> RM -> PPO。

Baichuan2 是国内较早公开 SFT -> RM -> PPO 经典对齐流程的报告。SFT 阶段先让 base model 学会对话和指令；RM 阶段收集偏好比较，训练 reward model；PPO 阶段用 RM 分数优化策略并加 KL 约束。它适合放在课程里作为 InstructGPT 路线的中文/开源对照：在没有大规模可验证 RLVR 时，SFT/RM/PPO 仍是完整后训练闭环。

2. 360Zhinao：RM 也是数据治理工具。

360Zhinao 的公开材料强调数据质量和数据治理。RM 不只是 PPO 的奖励器，也可以做 judge、过滤器和数据重标工具：对候选回答打分，筛掉低质量样本，发现重复模式，再回流 SFT。

3. 最小复现：rejection sampling SFT + DPO。

可复现实验可以把同一批中文指令采样 4 个回答，用 judge/RM 打分，保留 top-1 做 rejection sampling SFT，再用 bottom/top pair 做 DPO。这个流程虽然不如 agent RL 酷，但非常接近大量真实产品模型的日常后训练。

昆仑万维 Skywork 与小米 MiMo

资料入口：[Skywork-OR1]^[46]、[MiMo]^[47]、[MiMo-VL-Miloco]^[48]

Skywork-OR1 和 MiMo 都适合学习“小模型 / 蒸馏模型继续做 RL”的问题。它们不像 frontier lab 只堆规模，而是关注 entropy collapse、数据难度、reward 稀疏和训练稳定性。

1. Skywork-OR1：在 R1-Distill 上继续 RL，核心风险是 entropy collapse。

Skywork-OR1 建在 DeepSeek-R1-Distill 系列之上。蒸馏模型已经会长 CoT，但继续 RL 时很容易过早收敛到少数表达和解题模式，entropy 下降后探索消失。报告的主线就是通过训练 pipeline 和 ablation 找出影响 entropy dynamics 的因素，并证明缓解 premature entropy collapse 对测试性能关键。公开结果显示 32B 平均准确率从 57.8% 到 72.8%，7B 从 43.6% 到 57.5%，并开源权重、代码和数据。

复现重点是监控 entropy，而不是只看 reward。用 R1-Distill-7B 做数学/代码 RL；每步记录 token entropy、response length、pass@1、重复 n-gram、格式错误率；尝试调整采样温度、KL、clip、数据难度和动态采样。如果 reward 上升但 entropy 快速塌缩，后期往往泛化差。

2. MiMo：7B reasoning model 的 post-training 关键是 130K 可验证题。

MiMo-7B 在 post-training 阶段构造 130K verifiable mathematics and programming problems 做 RL。数学题用答案 verifier；编程题用测试执行。它还提出 test-difficulty-driven code reward，缓解代码 reward 稀疏：不是所有测试通过/失败都等价，能通过更难测试或更多隐藏测试应有更细粒度奖励。Strategic data resampling 则用来稳定训练，把算力集中在既有挑战又可学习的样本上。

MiMo 的最小复现非常清楚：准备 80K 数学题和 50K 编程题，或更小的 5K/2K 版本；数学用 Math-Verify / parser 判答案；代码题为每题准备 easy/medium/hard tests，reward 按通过测试难度加权；每轮 RL 后统计哪些题全对、全错、半对，对全对/全错下采样，对半对题提高采样。这个方法对 7B 尤其重要，因为小模型训练预算有限，不能把 rollout 浪费在没有学习信号的样本上。

3. MiMo-VL-Miloco：把小模型推理扩到多模态。

MiMo-VL 延续了“小模型 + 高质量可验证数据 + 稳定 RL”的路线，但对象变成视觉语言。可学习点和 STEP3-VL 类似：视觉题要区分 perception 错误和 reasoning 错误；reward 需要同时覆盖答案正确性、视觉证据引用和输出格式。复现时可把数学图表/OCR/几何题作为 RLVR 数据，再混入开放图片描述偏好数据做回填。

快手、商汤、讯飞

资料入口：[Kwai Keye-VL]^[49]、[SenseNova U1]^[50]、[Spark X1]^[51]

披露边界：适合作为产业动态参考。

这三家公司公开了多模态后训练（快手）、原生理解生成（商汤）和深度推理（讯飞）的动态，但缺乏完整的训练 recipe 报告。课程里可以把它们作为“方向覆盖”保留，避免误写成可复现的详细训练配方。

阅读重点：看它们分别押注哪些能力面，例如 VLM、多模态生成、深度推理、中文场景和端到端产品体验；不要从发布材料反推出未披露的 SFT/RL 细节。

国外大厂与主流实验室

OpenAI

资料入口：[InstructGPT]^[52]、[GPT-4]^[53]、[o1]^[54]、[o3/o4-mini]^[55]、[o3 Operator]^[56]、[GPT-4.5]^[57]、[GPT-5]^[58]、[GPT-5.1]^[59]、[GPT-5.4 Thinking]^[60]、[GPT-5.5]^[61]、[GPT-5.5 Instant]^[62]、[GPT-5-Codex]^[63]、[GPT-5.1-Codex-Max]^[64]、[GPT-5.2-Codex]^[65]

OpenAI 的公开资料横跨三代后训练：InstructGPT 的经典 RLHF、o-series 的 reasoning / deliberation、安全系统卡中的 deliberative alignment，以及 Codex / Operator 类 agent 模型。闭源系统卡不会披露完整 recipe，但方法边界很清楚。

1. InstructGPT：RLHF 最小闭环。

InstructGPT 的流程可以直接复现成教学实验。第一步是 demonstration SFT：标注员写高质量回答，让 base model 先学会按指令完成任务。第二步是 reward modeling：对同一 prompt 采样多个回答，标注员排序，训练 reward model 预测人类偏好。第三步是 PPO：用 reward model 给 policy 输出打分，并用 KL penalty 约束 policy 不要偏离 SFT 模型太远。这里的关键是三类数据不同：SFT 数据是“好答案”，RM 数据是“偏好比较”，PPO 数据是“prompt + on-policy samples”。

最小复现可以用 5K 指令做 SFT；为 1K prompt 各采样 4 个回答，做 pairwise preference 训练 RM；最后用 PPO / DPO / IPO 任选一种偏好优化。评估不能只看 reward model 分数，还要人工或 LLM judge 看 helpfulness、truthfulness、toxicity、verbosity 和 instruction following，因为 RM 很容易被策略钻空子。

2. GPT-4 到 o-series：reasoning 后训练把动作空间扩大。

GPT-4 技术报告只高层描述 post-training 和 safety；o1/o3/o4-mini 系统卡更明确：模型通过强化学习学会在回答前进行更长 deliberation，并在需要时使用工具。这里的变化是 action 不再只是“下一个 token”，还包括何时写代码、何时浏览、何时调用图像/文件工具、何时停止、何时拒答。reward 也从人类偏好扩展到最终答案、工具结果、策略合规、安全边界和用户体验。

这种能力的可复现抽象是：选择一个有工具的任务族，例如代码执行数学题；模型输出思考和工具调用；环境返回 execution result；reward 同时检查最终答案、工具格式、调用次数和安全策略。先 SFT 少量成功工具轨迹，再做 RL。这样能复现 o-series 的方法形态，而不是复刻闭源配方。

3. Deliberative alignment：安全也变成推理任务。

OpenAI 系统卡中反复出现的一个方向是让模型在困难安全问题上先推理策略，再决定回答方式。早期安全对齐容易变成拒答模板；deliberative alignment 更像把 policy spec、边界案例和安全评测做成训练任务：模型要识别请求类型，判断能否安全完成，必要时转换成安全替代方案。复现时可以构造安全 prompt、策略条款和正确处理示例，用 SFT 教模型引用策略，再用 preference/RL 奖励“安全完成”而不是盲拒。

4. Operator / Codex：agent 后训练需要真实环境。

Operator 和 Codex 类模型把后训练扩展到 browser / software engineering episode。coding agent 的环境要包含仓库状态、测试命令、patch verifier、lint、用户指令层级和失败恢复；browser agent 的环境要包含页面状态、可点击元素、任务成功检查和安全沙箱。GPT-5-Codex 的系统卡明确说它通过真实软件工程任务上的 RL 训练，学习贴近人类代码风格和 PR 偏好、严格遵循指令、反复运行测试直到通过；GPT-5.1-Codex-Max 继续把训练对象扩展到跨多个上下文窗口的长程 agentic coding，通过 compaction 在百万 token 级任务中保持连贯；GPT-5.2-Codex 则强调 SWE-Bench Pro、Terminal-Bench 2.0、Windows 原生环境、长上下文理解和可靠工具调用。最小复现可以用 SWE-bench Lite：checkout 仓库，给 issue，模型编辑文件，运行 tests，reward 为测试通过 + patch 合理性；也可以用 MiniWoB / BrowserGym：模型观察 DOM/截图，点击输入，reward 为任务完成和动作合法。

Anthropic

资料入口：[Constitutional AI]^[66]、[Anthropic CAI overview]^[67]、[Claude 4 System Card]^[68]、[Claude Sonnet 4.5]^[69]、[Claude Opus 4.5]^[70]、[Claude Opus 4.6]^[71]

Anthropic 最值得学的是 Constitutional AI 和系统化安全评测。它的公开材料不提供 Claude 4 的完整训练 recipe，但 Constitutional AI 是可以复现的方法。

1. Constitutional AI：把安全偏好写成原则，再用 AI feedback 扩展数据。

传统 RLHF 需要大量人工比较。Constitutional AI 先定义一组原则，即 constitution；supervised phase 中，模型先生成回答，再根据 constitution 自我批改并重写，形成更安全的 SFT 样本。preference phase 中，AI 根据 constitution 比较两个回答，生成偏好数据，训练 preference model，最后用 RL 优化 policy。这就是 RLAIF：把人工从逐条偏好判断中部分移到原则设计和质量审计上。

最小复现路径是：写 20-50 条安全/诚实/隐私/无害原则；为有风险 prompt 采样回答；让强模型按原则指出问题并重写；用重写数据做 SFT；再让强模型对两条回答按原则排序，训练 DPO 或 reward model。评估时要单独看 over-refusal，因为安全原则过强会让模型拒绝正常请求。

2. Claude 系统卡：后训练和评测是一体的。

Claude 4 系列系统卡关注 reward hacking、sabotage、sycophancy、alignment faking、hidden objectives、jailbreak、extended thinking 下的策略遵循等。这里的学习点不是某个 RL 公式，而是安全后训练必须有 adversarial evaluation。模型在训练 reward 下表现好，不代表不会在长上下文、工具调用、角色扮演或高压提示里偏离。

3. Extended thinking 的安全风险。

当模型有更长思考和工具能力时，安全训练不再只是“输出拒答”。模型可能在思考中制定规避策略，或在工具环境中完成不该完成的步骤。因此安全 reward 要覆盖策略遵循、工具限制、信息泄露、隐私、欺骗和拒答质量。复现时可以把工具任务和安全规则结合：例如要求模型处理文件，但禁止读取无关敏感文件；reward 同时检查任务成功和越权行为。

Google DeepMind

资料入口：[Gemini 1.5]^[72]、[Gemini 2.5]^[73]、[Gemini 2.5 Deep Think]^[74]、[Gemini 2.5 Computer Use]^[75]、[Gemini 3.1 Pro]^[76]、[Gemma 3]^[77]

Google DeepMind 的公开资料披露粒度不如开放论文，但方向非常明确：多模态、长上下文、工具、reasoning 和安全评测一起做。Gemini / Gemma 这条线适合学习“统一多模态模型怎么设计后训练任务”。

1. Gemini 1.5 / 2.5：长上下文后训练的核心是 evidence grounding。

长上下文模型不是只把 context window 扩大。后训练要让模型在几十万 token、图片、视频、文档中定位证据，避免把不相关片段混进答案。任务构造应包含 needle-in-haystack、长文档 QA、多文档冲突、视频事件定位和跨模态引用。reward 不能只看最终答案，还要看证据位置是否正确、引用是否支持结论、是否忽略了无关干扰。

2. Deep Think：横向探索 + 汇总，而不是无限延长单条 CoT。

Gemini 2.5 Deep Think 展示的是 test-time compute scaling 的另一种形态：生成多条候选思路，比较并整合。它和 LongCat heavy thinking、self-consistency 属于同族。训练上需要 reward 区分“有用的多样性”和“无意义发散”：候选路径要覆盖不同假设，整合答案要比单一路径更正确。小型复现可以对数学/视觉题采样 5 条推理，verifier 选正确路径，再训练模型输出“候选分析 + 最终合并答案”。

3. Computer Use：GUI 环境里的安全动作学习。

Gemini Computer Use 面向屏幕状态和动作序列：观察网页/桌面，输出点击、输入、滚动等动作，再根据环境反馈继续。reward 至少包含任务完成、动作有效、回合数、是否误点敏感控件、是否泄露信息、是否违反用户授权。复现时可用 BrowserGym / OSWorld：每个 task 提供 reset、observe、step、success check 和安全检查；先 SFT 成功轨迹，再 RL 学长期策略和错误恢复。

4. Gemma：开放小模型的 distillation + targeted post-training。

Gemma 系列提供更接近开源社区的路径：用强教师蒸馏和高质量数据过滤提升小模型，再针对数学、指令、多语言、安全做专项 post-training。它的意义是：不一定复刻 frontier 级 RL 系统，小模型也能通过数据质量、教师选择、能力分桶和 targeted preference optimization 得到实用能力。

Meta Llama

资料入口：[The Llama 3 Herd of Models]^[78]

Llama 3 Herd 是开放模型里最适合作为产品级 chat model 后训练流水线的参考之一。它的价值不是某个单独算法，而是完整的数据治理、SFT、reward model、rejection sampling、preference optimization、安全对齐和评测闭环。

1. SFT 数据按能力域配比。

Llama 的 SFT 不应理解成“堆 instruction JSON”。数据需要覆盖通用问答、代码、数学、多语言、工具、安全和长上下文，并为每个域设置独立 eval。工程上通常要做去重、质量过滤、格式统一、拒答边界清洗、过长/过短样本控制。复现时先用小规模能力分桶，而不是一个混杂数据池。

2. Rejection sampling：用 RM / 规则把采样变成新 SFT 数据。

对同一个 prompt 采样多个回答，用 reward model、规则 verifier 或 judge 选出最好的，加入下一轮 SFT。它介于 SFT 和 RL 之间：不直接更新策略梯度，但能把模型自己的高质量输出蒸馏回模型。对数学/代码可以用 verifier；对聊天/安全可以用 RM / judge。最小复现时，每个 prompt 采样 4-8 个回答，保留 top-1，同时保留 top/bottom pair 做 DPO。

3. Preference optimization 和 safety 贯穿全流程。

Llama 的安全不是最后加拒答样本，而是在数据过滤、SFT、安全 RM、红队、发布阈值中持续出现。Preference optimization 进一步拉开好坏答案概率差，但也可能牺牲多样性和诚实性，所以需要 truthfulness、安全、拒答、helpfulness 同时评估。它是一条适合开源团队复现的基础线：即使没有 agent 环境，也能把 SFT、RS、DPO/RLHF、安全评测做完整。

Microsoft Phi

资料入口：[Phi-4]^[79]、[Phi-4-reasoning]^[80]

Phi-4-reasoning 的重点是小模型 reasoning。它不是靠巨大参数硬推，而是靠高质量合成数据、teachable prompts 和一段 outcome-based RL，把 14B 级模型推到较强推理水平。

1. 数据先行：teachable prompts 比大而杂更重要。

小模型容量有限，后训练数据必须可学、干净、有清晰监督。数学、科学、代码和逻辑题要按难度组织，过难题全错没有 RL 信号，过易题全对浪费 rollout。复现时应先构造 5K-20K 可教题集，保证 SFT 后模型能达到一定成功率，再进入 RL。

2. SFT 教格式和推理，短 RL 修正确率和长度。

Phi-4-reasoning 的思路可以抽象为：先用高质量 synthetic reasoning traces 做 SFT，让模型会展开推理；再用 outcome reward 对可验证题做 RL，强化正确路径并控制无效长思考。小模型尤其要监控 average response length，因为一点 RL 就可能让输出变长但正确率不升。最小复现实验是用 Phi/Qwen 7B-14B、MATH/GPQA 子集、强教师生成 CoT，SFT 后每题采样 8 个，用答案 verifier 做 GRPO，并加入长度统计。

NVIDIA Nemotron

资料入口：[Nemotron-4 340B]^[81]、[Llama-Nemotron]^[82]、[Llama Nemotron Ultra]^[83]、[Nemotron Agent Blog]^[84]、[Nemotron-H]^[85]、[Nemotron 3]^[86]

NVIDIA Nemotron 的特点是把后训练做成可复用资产：模型、数据、reward、部署栈一起发布或产品化。Nemotron-4 340B 配套 synthetic data、preference data、reward model；Llama Nemotron 把 reasoning、tool use、RAG、instruction following 和企业部署放在一起。

1. Nemotron-4：alignment 资产化。

它不是只发布 instruct 权重，而是把 synthetic data、preference data、reward model 和评测组件作为训练资产。方法是用强模型和规则生成候选数据，通过质量过滤和偏好标注训练 RM，再做 RLHF / preference optimization。可复现时可以把 RM 当作独立产物维护：它既用于 PPO/DPO，也用于 rejection sampling、数据过滤和自动评测。

2. Llama Nemotron：prune/distill 后做 reasoning 和 agent 后训练。

NVIDIA 的公开博客描述了三段式：从 Llama 底座出发，先剪枝提升效率，再蒸馏改善能力，然后用 post-training 数据和 RL 强化 reasoning、instruction following、function calling 和 chat。Llama-Nemotron-Post-Training Dataset 覆盖 math、coding、general reasoning、instruction following；OpenCodeReasoning 等数据强化代码推理。Ultra 还支持 reasoning on/off，说明它也要处理长思考成本和普通交互体验。

3. RLVR 与企业 agent。

NVIDIA 强调蒸馏能搬运老师能力，但要进一步提升，需要 curriculum-driven RLVR。企业 agent 场景的 reward 来自工具调用正确性、RAG 忠实性、function calling schema、代码执行和用户意图对齐。公开资料还提到使用 REINFORCE 和 heuristic based verifiers 做 instruction following / function calling 增强，再用 HelpSteer2 等偏好数据做 RLHF。复现时可以做两桶 RL：一桶 math/code verifier，一桶 function calling verifier；最后混入 chat/RAG 偏好回填。

4. 部署约束进入后训练目标。

Nemotron 的输出不只是权重，还有 NIM、NeMo Gym、企业推理栈。post-training 评估应包含 latency、throughput、function calling 成功率、RAG 引用忠实性和推理开销。企业模型如果只看 AIME，会忽略上线最常见的失败点。

Mistral

资料入口：[Magistral]^[87]

Magistral 的公开摘要很值得放在 reasoning RL 章节：Mistral 明确说它使用自家的 scalable RL pipeline，不依赖已有实现或从其他模型蒸馏来的 RL traces，而是 ground-up 做 pure RL。

1. Pure RL：避免把老师轨迹当能力上限。

蒸馏能快速得到长 CoT 格式，但也会继承老师的风格和错误。Magistral 的方向是从自家 checkpoint 出发，用 RL 自己探索推理能力。公开资料还提到 Magistral Medium 基于 Mistral Medium 3 只用 RL 训练 reasoning，Magistral Small 则包含来自 Medium 的 cold-start 数据。这对应两种复现路径：大模型直接 RL 探索；小模型先蒸馏大模型 cold-start，再 RL。

2. 强制 reasoning language。

多语言模型做 reasoning RL 时可能出现推理语言混杂。Magistral 提到一种 simple method to force reasoning language，说明后训练不仅要管答案正确，还要管推理语言和输出风格。复现时可以在 prompt / template 中显式指定 reasoning language，并用 format reward 检查推理段语言、答案段语言和结构。

3. 文本 RL 对其他能力的影响。

Magistral 的一个有意思结论是，只在 text data 上做 RL 仍能保持或提升 multimodal understanding、instruction following 和 function calling。这说明 RL 不一定必然破坏通用能力，但需要持续评估。最小复现时，做完数学/文本 RL 后，要同时跑函数调用、普通指令、多语言和视觉文本化任务，确认没有被 reasoning 数据拉偏。

Apple

资料入口：[Apple Foundation Models 2024]^[88]、[Apple Foundation Models 2025]^[89]

Apple 的 foundation model 报告把后训练和部署约束绑得很紧：一个约 3B 的端侧模型要在 Apple silicon 上运行，server model 要在 Private Cloud Compute 上服务，模型还要支持多语言、多模态和 tool calls。

1. SFT + RL 在异步平台上做，但目标受端侧约束限制。

2025 报告明确说模型在大规模多语言、多模态、合成与授权数据上训练后，会通过 supervised fine-tuning 和 reinforcement learning 在新异步平台上进一步优化。这里的后训练目标不是“benchmark 最大化”这么简单，还要考虑 guided generation、constrained tool calling、LoRA adapter fine-tuning、隐私和低延迟。端侧模型尤其不能靠无限长 CoT 提升体验，reward 应包含正确率、简洁性、延迟、内存和能耗。

2. 多源奖励：偏好、规则和工具约束并存。

Apple 报告强调 Responsible AI 和 locale-specific evaluation。消费级模型要处理不同地区语言、安全规范和产品体验。可复现时可以构造三类 reward：文本/图文偏好 RM 用于回答质量；数学/STEM 规则 verifier 用于可验证推理；tool calling schema checker 用于约束工具调用。最后按设备类型设置不同目标：端侧模型重简洁和隐私，云端模型可承担更复杂推理。

3. 后训练和系统接口一起设计。

Apple 的 Foundation Models framework 暴露 guided generation、constrained tool calling 和 LoRA。它说明产品级后训练不能脱离 API：如果接口支持 constrained decoding，训练时就应加入 JSON/schema/tool 数据；如果允许 LoRA 个性化，基础模型后训练要保持可适配性。最小复现可以在小模型上训练工具调用 JSON schema，并用 constrained decoder 评估 schema success rate。

xAI Grok

资料入口：[Grok-1]^[90]、[Grok 4]^[91]、[Grok 4.1]^[92]、[Grok 4.1 Model Card]^[93]

1. 披露边界：模型卡多，训练 recipe 少。

xAI 的公开材料更侧重模型卡和发布说明，没有给出完整 post-training recipe，但反复强调 RL scaling、truthfulness、personality、style 和 emotional intelligence。这类目标不属于传统“答题正确率”，但对 C 端产品非常关键。

2. 可学习点：把产品人格拆成 reward。

可学习点是把产品人格拆成可评测 reward，而不是只写 system prompt。personality reward 可以评估幽默感、直接性、不过度迎合；truthfulness reward 检查事实和不确定性表达；emotional intelligence reward 检查是否识别用户情绪、是否给出合适语气；safety reward 检查风险边界。

3. 最小复现：多目标偏好优化。

复现时可以用偏好数据训练多个 reward head 或多个 judge rubric，再做 multi-objective DPO/RL。风险是人格 reward 容易推动 sycophancy，所以必须单独评估“是否为了讨好用户而承认错误事实”。

IBM Granite

资料入口：[Granite 3.3]^[94]、[Granite 4.0]^[95]、[Granite 4.1]^[96]

1. 企业小模型：RAG、工具、安全和低成本推理。

IBM Granite 的后训练重点是企业小模型：RAG、工具调用、安全、低成本推理和可切换 thinking。Granite 3.3/4.x 的公开材料显示，GRPO/TPO 这类 reasoning 后训练已经进入企业级小模型，而不是只存在于前沿大模型。

2. 最小复现：企业任务小模型后训练。

复现时可以把 Granite 路线抽象成“企业任务小模型后训练”：先用企业问答、RAG 引用、工具 schema、数学/逻辑题做 SFT；再用 GRPO 强化可验证推理；用偏好数据优化 RAG 忠实性和拒答；最后用 model merging 或 adapter merging 融合领域专家。

评估指标要包括 RAG citation faithfulness、function calling success、refusal correctness、latency、cost 和 thinking on/off 的差异。

Salesforce xLAM / SFR-RL

资料入口：[Salesforce xLAM]^[97]、[Salesforce SFR-RL]^[98]

Salesforce 的 xLAM / SFR-RL 是工具调用和 agentic RL 基础设施的代表。xLAM 关注 action model：给定用户意图和 API 文档，模型要选择正确工具、填对参数、按顺序调用。SFR-RL 则回答大规模 agent rollout 怎么训得动。

1. xLAM：工具调用 reward 要比文本偏好更结构化。

API agent 的错误通常不是“回答不好听”，而是工具选错、参数缺失、调用顺序错误、schema 不合法、结果没用上。训练数据应包含 API schema、用户请求、工具调用序列、环境返回和最终回答。reward 可以拆成 schema validity、tool selection accuracy、argument exact match、execution success、final answer groundedness。最小复现可以用 50 个 mock API，自动生成用户请求和正确调用链，用函数执行结果做 verifier。

2. SFR-RL：pipelined synchronous RL。

Agentic rollouts 长且不稳定，纯同步会等慢任务，纯异步又牺牲 on-policy 性。SFR-RL 的方案是 pipelined synchronous：rollout phase 和 training phase 交替，每个阶段都使用整个 GPU 集群。rollout 时卸载训练模型，把 policy 加载到弹性推理引擎上并发生成；training 时释放推理引擎，重新加载训练模型做 on-policy update。跨 batch 做流水线管理，保证 GPU 不空转，同时维持数据组成和 on-policy 保证。

3. 故障恢复和本地优先工具执行。

长程 agent rollout 中，一个 inference engine crash 或工具卡死都可能拖住 batch。SFR-RL 的 inference gateway 自动检测失败、重建 engine actor、恢复权重、重排 in-flight work。它还强调 scalable local-first tool execution 和 Expert Parallelism 支持。复现时即使用小集群，也应实现 timeout、retry、任务重排和失败标记，否则 agent RL 数据会被系统错误污染。

Amazon Nova

资料入口：[Amazon Nova]^[99]、[Nova Family Technical Report]^[100]、[Nova Premier]^[101]、[Nova Forge]^[102]

1. Nova Forge：后训练平台化。

Amazon Nova 的技术报告偏模型卡，内部后训练 recipe 没有展开到论文级细节。Nova Forge 更直接展示了“后训练平台化”的方向。传统 fine-tuning 是企业给一批数据，模型做 SFT；Nova Forge 允许企业从 pre-training、mid-training 或 post-training checkpoint 进入，把私有数据和 Nova-curated 数据混合，再用 RL 阶段对齐企业任务。

2. Remote reward functions：企业 verifier 接进 RL。

最重要的方法是远程 reward functions。企业的 reward 往往不在训练集里，而在内部系统：代码是否通过私有 CI，机器人动作是否通过仿真，客服回答是否符合业务流程，工具调用是否在真实 API 中成功。Nova Forge 把这些系统通过 API 接进 RL，对模型 rollout 结果打分。这个模式可以叫 Reward as a Service。

3. 最小复现：本地 verifier 模拟企业 reward。

最小复现可以用一个私有 API verifier 模拟企业 reward：模型生成 SQL、代码补丁或客服动作；本地服务执行并返回 pass/fail 和 rubric 分；训练器只通过 HTTP 调 reward。这样能复现 Nova Forge 的关键抽象：模型厂提供 checkpoint、训练基础设施和 reward 接口，企业提供私有环境与验证器。

Cohere Command A

资料入口：[Cohere Research]^[103]、[Command A]^[104]

1. Decentralized pipeline：避免所有能力串行互相覆盖。

Command A 的报告展示了企业模型如何避免“所有能力串行训练互相覆盖”。它的后训练不是一条线跑到底，而是 decentralized pipeline。先训练一个核心模型掌握基本 instruction following，然后为 code、safety、RAG、math、multilingual、long-context 等能力分别训练 expert track。每个 expert track 可以用自己的数据配方、偏好目标和评测标准。

2. Expert soup：专项能力训练后再合并。

接下来用参数合并把专家能力汇总。报告里有 SFT Expert Models、SFT Soup Model、RL Expert Models、RL Soup Model 和 Polished Model。六类 expert track 可以分别服务 long-context、safety、instruction、RAG & agents、multilingual、code/reasoning 等能力；RL expert 使用 pairwise comparisons 或 verifiable rewards。合并后再做 polishing：对 RL Soup model 先做 best-of-N supervised training，再在 offline preference 和 online RL 之间 ping-pong，直到人类偏好表现平台化。

3. 最小复现：3-6 个 expert track + soup + polish。

Command A 的可复现模板是：训练一个基础 instruct 模型；复制成 3-6 个 expert，各自用不同数据和 DPO/RLVR 优化；用 model soup / task arithmetic 合并；最后用一小段通用偏好数据 polish。这个思路尤其适合企业模型，因为安全、RAG、代码和销售文案的优化目标经常互相冲突，分专家训练能降低 loss 互相打架。

Databricks, AI21, Cursor, LG, NAVER, AI2 Tulu 3

资料入口：[DBRX Instruct]^[105]、[Jamba 1.5a]^[106]、[Jamba 1.5a Whitepaper]^[107]、[Cursor Composer 2]^[108]、[EXAONE 4.0]^[109]、[K-EXAONE]^[110]、[HyperCLOVA X]^[111]、[HyperCLOVA X THINK]^[112]、[Tulu 3]^[113]、[Tulu 3 Blog]^[114]、[RL Post-Training Survey]^[115]

这组资料不必每个都单独开大节，但它们补齐了几类重要实践。

1. Databricks DBRX：企业开源 instruct 的基础线。

DBRX Instruct 代表传统 enterprise instruct：强调数据质量、指令跟随、代码、RAG 和部署效率。它的可借鉴点是把后训练和企业场景 eval 绑定，而不是只看聊天榜单。

2. AI21 Jamba 1.5a：post-post-training safety alignment。

Jamba 1.5a 的主题是企业 code of conduct 写入模型。方法上更像二次对齐：在已有 instruct model 之后，用合成安全偏好数据和企业原则修正行为。复现时可以给模型一组公司政策，生成违反/遵守政策的回答对，用 DPO 或 RLAIF 调整。

3. Cursor Composer 2：coding agent 训练要用真实仓库任务。

Cursor 的 coding agent 目标不是写单文件函数，而是在代码库里理解上下文、编辑、多文件修改、运行测试和恢复失败。训练环境应包含 repo state、issue、编辑器动作、终端、测试和 patch verifier。它和 GPT-5-Codex、Qwen3-Coder、MiniMax SWE Scaling 是同一类。

4. LG EXAONE / NAVER HyperCLOVA X THINK：本土化与 thinking 模式融合。

韩国大厂的资料提醒一个容易忽略的问题：后训练不仅是英文 benchmark，还要处理本土语言、文化、安全规范和业务风格。thinking / non-thinking 模式在本土语言中也要单独评估，不能假设英文 CoT recipe 直接迁移。

5. AI2 Tulu 3：开放 post-training 教科书。

Tulu 3 完整开源数据、代码和训练 recipe，主题就是 multi-stage post-training：SFT、preference learning、RLVR。它的价值在于透明：可以看到 prompt 数据、偏好数据、verifiable rewards、训练参数和评测如何组织。复现现代后训练时，Tulu 3 应作为开源 baseline，再把 MiniMax/Qwen/DeepSeek/Seed 的特定技巧加进去。

方法主线

奖励从“人喜欢哪个回答”变成“任务过程是否真的完成”。 早期 RLHF 看 preference pair；R1、Qwen、Seed、Mistral 看答案可验证；MiniMax、Kimi、LongCat、Tongyi 看工具轨迹、环境状态和最终交付。
数据从静态样本变成可生成、可验证、可回放的环境。 GitHub PR、Docker、Playwright、浏览器、数据库、工具图谱、搜索网页都变成后训练数据的一部分。
后训练顺序越来越分段。 常见顺序是 cold-start SFT、reasoning RL、agentic RL、general preference / safety 回填；顺序错了就容易出现长 CoT 过度、聊天退化、工具滥用或安全漂移。
训练系统正在成为竞争力。 异步 rollout、PD 解耦、KV-cache 交换、环境调度、失败恢复、reward service、LLM-as-judge 和可执行 verifier，都是“后训练实践”的一部分，而不是外围工程。

如果把上面的公司实践抽象成一个可复现的小型项目，可以按下面的顺序做：

先选一个可验证任务族。 数学题最简单，代码题次之，网页/GUI/研究 agent 最难。开放聊天任务的 reward 较难定义，不适合作为第一版 RL 实验。
把任务封装成环境。 数学环境需要 answer parser 和 verifier；代码环境需要仓库 checkout、依赖安装、测试命令和 patch 检查；网页环境需要浏览器、状态记录和证据抽取；GUI 环境需要截图、动作空间和可复位 sandbox。
先做 SFT 冷启动。 收集或生成成功轨迹，让模型学会输出格式、工具协议、思考结构和停止条件。没有冷启动就直接 RL，容易先在格式和工具调用上乱掉。
再做采样和筛选。 对每个 prompt 采样多个输出，用 verifier / judge / reward model 选出正确、简洁、过程合理的轨迹。这个阶段就是 Qwen、DeepSeek、Kimi、MiniMax 都在反复做的 rejection sampling / self-improvement。
最后做 RL。 简单题可以用 GRPO / DAPO 风格的组内相对优势；需要 value model 的任务可以参考 PPO / VAPO；长程 agent 要额外处理异步 rollout、失败恢复、工具噪声和 token-level credit assignment。
训练后做能力回填。 用通用指令、安全、短回答、风格和非思考模式数据再对齐一次，防止模型被 reasoning RL 训练得又长又慢。

一个很小但完整的练习可以是：用 5K 数学题或 1K 代码修复题做 SFT，采样 8 个候选，用规则 verifier 过滤，再用 GRPO 训练一轮，最后评估正确率、平均输出长度、格式错误率和通用聊天退化。这样的闭环比只停留在算法名称层面更能揭示后训练的真实难点。

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

9.7 工业界后训练实践全景 ​

国内大厂与主流实验室 ​

MiniMax ​

1. M2.1 的 SWE Scaling：从 GitHub 原始数据到可运行 RL 环境。 ​

2. M2.1 的 AppDev：从固定测试转向 Agent-as-a-Verifier。 ​

3. WebExplorer：解决长程网页 agent 缺少难题数据的问题。 ​

4. MiniMax-M1：长思考 RL 的效率问题。 ​

阿里 Qwen / 通义 ​

1. Qwen2.5：先把通用 instruct 做成多阶段后训练。 ​

2. Qwen2.5-Math：数学后训练的核心是 CoT / TIR 自改进闭环。 ​

3. QwQ-32B： outcome-based reward 的两阶段 RL。 ​

4. Qwen3：thinking / non-thinking 的统一后训练。 ​

5. Qwen3-Coder / Tongyi DeepResearch：从答案 RL 进入过程 RL。 ​

Moonshot Kimi ​

1. Kimi k1.5：不用 MCTS / value function / process RM，也能做长思考 RL。 ​

2. 长度奖励：解决 overthinking，而不是简单砍 max tokens。 ​

3. Long-to-short：先学会想，再学会少写。 ​

4. Kimi K2：agentic intelligence 的数据和工具闭环。 ​

5. Kimi-Researcher：研究 agent 的 reward 要覆盖证据链。 ​

字节 Seed / Doubao ​

1. Seed1.5-Thinking：reasoning model 的基础配方。 ​

2. DAPO：把 GRPO 难训点拆成四个补丁。 ​

3. VAPO：value model 不是不能用，关键是长 CoT 的 advantage 要重做。 ​

4. UI-TARS：GUI agent 先靠轨迹和偏好学基本操作。 ​

5. UI-TARS-2：多轮 RL、混合环境和数据飞轮。 ​

6. Seed Prover 1.5：形式化证明环境里的 agentic RL。 ​

DeepSeek ​

1. DeepSeekMath：GRPO 的最小可复现版本。 ​

2. DeepSeek-R1-Zero：直接从 base model 做规则 RL。 ​

3. DeepSeek-R1：cold-start + reasoning RL + rejection sampling + final RL。 ​

4. DeepSeek-V3.2：从答案 verifier 到 agentic verifier。 ​

智谱 Z.ai / GLM ​

1. GLM-4.5：hybrid reasoning 和 expert model iteration。 ​

2. GLM-5：Reasoning RL -> Agentic RL -> General RL。 ​

3. 异步 agent RL：把 generation 和 training 解耦。 ​

4. On-policy cross-stage distillation：防止分阶段训练遗忘。 ​

腾讯混元 Hunyuan ​

1. Hunyuan-T1：把大部分 post-training compute 投给 RL。 ​

2. curriculum、context expansion 和 token efficiency。 ​

3. data replay、periodic policy reset 和统一 reward。 ​

4. Hunyuan-A13B：fast / slow thinking 的产品形态。 ​

百度 ERNIE ​

1. SFT：先覆盖任务域，再进入 RL。 ​

2. Unified Rewarding System：把 rule、sandbox、RDRM、GRM 等奖励放进同一框架。 ​

3. Progressive RL：Logic RL -> Reasoning RL -> General RL。 ​

4. UPO：多任务 RL 的尺度和稳定性。 ​

5. ERNIE 5.0：把后训练扩展到统一多模态。 ​

阶跃星辰 StepFun ​

1. STEP3-VL-10B：fully unfrozen 预训练后，用 1K+ RL iteration 做视觉推理。 ​

2. RLVR + RLHF：可验证视觉题和开放偏好分开处理。 ​

3. PaCoRe：并行生成视觉假设，再协调答案。 ​

4. Step-DeepResearch：训练研究过程而不是报告模板。 ​

美团 LongCat ​

1. 环境扩展：从领域定义自动生成可解工具环境。 ​

2. 冷启动数据：真实轨迹和双路合成。 ​

3. DORA：全异步流式 RL。 ​

4. 噪声鲁棒训练：把真实世界扰动提前注入。 ​

5. Heavy Thinking：宽度和深度一起扩展。 ​

蚂蚁 Ling / Ring ​

1. 披露边界：模型发布多，完整 recipe 少。 ​

2. 可学习点：deep thinking 和推理效率要一起设计。 ​

3. 最小复现：fast / slow thinking 数据拆桶。 ​

华为 Pangu ​

1. 披露边界：硬件和开源体系讲得更多。 ​

2. 可学习点：后训练 recipe 要受部署硬件约束。 ​

3. 最小复现：把成本指标放进 eval。 ​

01.AI Yi ​

1. 传统产品级 RLHF 路线。 ​

2. 最小复现：SFT -> RM -> PPO / DPO。 ​

3. 评估提醒：不要只看静态 benchmark。 ​

InternLM / 上海 AI Lab ​

1. 传统 RLHF 工程化：数据治理比算法名字更关键。 ​

2. COOL：条件化偏好，避免平均人风格。 ​

3. 最小复现：给偏好数据加 domain / style / safety 条件。 ​

百川 Baichuan 与 360 智脑 ​

1. Baichuan2：中文开源语境下的 SFT -> RM -> PPO。 ​