附录 D：学习资料与复现项目推荐

本附录目标：为读者的后续进阶提供清晰的导航。前半部分整理了理论扎实、深入浅出的教材与课程资源，帮助你系统性夯实基础或钻研前沿；后半部分则梳理了强化学习在游戏与仿真生态中的经典里程碑与常用环境，为你寻找下一个动手复现的实战项目提供灵感与坐标系。

学习资料推荐

使用方式：本书覆盖了从 MDP 基础到 PPO、DPO、GRPO 的完整链路，但 RL 领域远不止于此。如果你想深入某个方向、对比不同教学风格，或者寻找上手实践的资源，这份清单可以作为起点。所有资源均免费或公开可访问。

如何使用这份清单？

按你的目标选择：

刚学完第 3 章，想看其他教材怎么讲基础理论：建议从赵世钰《RL 数学原理》或 Sutton & Barto 原版开始。
想看视频课程跟学：建议从 David Silver 课程或李宏毅课程开始。
想上手写代码：建议从 OpenAI Spinning Up 或《动手学强化学习》开始。
关注 LLM 对齐 / RLHF / GRPO：建议从 Nathan Lambert RLHF Book 或 Ernest Ryu 的 RL-LLM 课程开始。
想了解前沿理论：建议从 Princeton ECE 524 或 Alberta CMPUT 365 开始。

一、经典教材

Reinforcement Learning: An Introduction（Sutton & Barto，第 2 版，2018）

地址：incompleteideas.net/book/the-book-2nd.html ｜中文翻译

强化学习领域的标准教材，被几乎所有大学 RL 课程列为必读。全书分三部分：Part I（表格方法，Ch1-8）覆盖 MDP、DP、MC、TD、n-step Bootstrapping、Planning；Part II（近似方法，Ch9-13）覆盖函数近似、资格迹、策略梯度；Part III（Ch14-17）讨论心理学、神经科学和应用。免费 PDF，中文翻译质量较高。适合系统性地打基础。

强化学习的数学原理（赵世钰）

地址：github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning（GitHub 10k+ stars）

Springer 出版 + 清华大学出版社。全书 10 章从数学角度严格推导 RL 核心算法：贝尔曼方程 → VI/PI → MC → TD（含 Sarsa、Q-Learning、n-step Sarsa）→ 函数近似 → 策略梯度 → Actor-Critic。每章配有数学证明和练习题。适合喜欢严格推导、想从数学层面理解"为什么这些算法有效"的读者。

深度强化学习（张志华，北京大学）

地址：PDF 初稿

北京大学数学学院课程配套教材。假设读者了解机器学习基础但不一定熟悉 RL，从基本概念出发，覆盖价值学习（DQN）、策略学习（Policy Gradient）、Actor-Critic、TRPO 等。配套王树森的 B 站视频课程。适合中文读者快速入门 DRL。

动手学强化学习（张伟楠、沈键、俞勇）

地址：在线版｜上海交大 RL 课程教材

实践导向，全书配有可运行的 Jupyter 代码。三部分：基础（Bandit → MDP → DP → MC → 规划）→ 进阶（函数近似 → DQN → 策略梯度 → PPO）→ 前沿（Model-Based RL、Offline RL）。适合边读边敲代码的学习者。

二、大学课程

欧美课程

Stanford CS234: Reinforcement Learning（Emma Brunskill）

地址：web.stanford.edu/class/cs234/

斯坦福 RL 基础课。从表格 MDP 开始，覆盖策略评估、Q-Learning、函数近似、策略梯度、Offline RL、探索、MCTS，最后涉及 RLHF。约一半课时打理论基础，一半进入高级主题。教材：Sutton & Barto。

Stanford CS224R: Deep Reinforcement Learning（Chelsea Finn）

地址：cs224r.stanford.edu ｜ YouTube 2025

斯坦福深度 RL 课程。假设学生已有 RL 基础，直接从模仿学习开始，快速进入策略梯度、Actor-Critic、Q-Learning、Model-Based RL、Offline RL、Reward Learning、RLHF、Meta-RL。适合已掌握基础、想深入 DRL 各方向的学习者。

MIT 6.7920: Reinforcement Learning Foundations and Methods（Cathy Wu）

地址：web.mit.edu/6.7920/www/

MIT 的 RL 理论课。三分之二"exploitation"（已知理论：DP 7 讲 + RL 核心方法 9 讲），三分之一"exploration"（前沿专题）。DP 部分非常扎实，覆盖有限/无限视界、LQR、策略/价值迭代、收敛性证明。适合追求理论深度的学习者。

UC Berkeley CS285: Deep Reinforcement Learning（Sergey Levine）

地址：rail.eecs.berkeley.edu/deeprlcourse/

伯克利的 Deep RL 旗舰课。仅 1 讲回顾 RL 基础，随后深入模仿学习、策略梯度、Actor-Critic、Value-Based RL、高级策略梯度、变分推断与 RL、LLM RL、Model-Based RL、Offline RL、探索。2026 春季版新增了 LLM RL 和 Offline RL 的实战作业。内容最贴近当前工业前沿。

CMU 10-703: Deep Reinforcement Learning and Control

地址：cmudeeprl.github.io/703website_f25/

CMU 的深度 RL 课程。覆盖经典理论（MDP、DP、MC、TD）后，进入函数近似、Deep Q-Learning、MCTS、策略梯度、模仿学习、逆 RL、最优控制、Model-Based RL、探索。理论与实践并重，覆盖面广。

University of Alberta CMPUT 365: Introduction to RL（Marlos Machado）

地址：Syllabus PDF

Sutton 所在大学的 RL 入门课，严格遵循 Sutton & Barto 教材顺序：Bandits → MDP → DP（含 PI、VI、GPI）→ MC 预测与控制 → TD 预测 → TD 控制（Sarsa、Q-Learning） → Planning（Dyna-Q）→ 函数近似 → 策略梯度。Sutton & Barto 教材最忠实的课程实现。

Georgia Tech CS 7642: Reinforcement Learning（OMSCS）

地址：omscs.gatech.edu/cs-7642-reinforcement-learning

可在线修读的 RL 课程。覆盖 DP、TD（含 Sarsa）、n-step TD、Lambda Return、DQN、策略梯度、多智能体 RL、博弈论、POMDP。OMSCS 项目中口碑最好的 RL 课程之一。

Princeton ECE 524: Foundations of RL（Chi Jin）

地址：sites.google.com/view/cjin/teaching/ece524 ｜ YouTube

理论导向，侧重有限样本分析和收敛性证明。Part I 覆盖表格 MDP、规划、探索（Bandit 和 MDP）、下界；Part II 覆盖大状态空间、线性 VI、函数近似、多智能体、POMDP。适合想做 RL 理论研究的学习者。

David Silver RL Course（UCL / DeepMind）

地址：davidsilver.uk/teaching ｜ YouTube

10 讲经典课程：MDP → DP → Model-Free Prediction → Model-Free Control → 函数近似 → 策略梯度 → Learning & Planning → 探索 → 经典游戏案例。David Silver 是 AlphaGo/AlphaZero 的第一作者。结构精炼，讲解清晰，是最广泛传播的 RL 视频课程。

DeepMind x UCL RL Lecture Series（2021）

地址：YouTube Playlist

David Silver 课程的更新版，由 DeepMind 研究员（Hado van Hasselt 等）主讲。13 讲覆盖探索与控制、MDP 与 DP、无模型方法、函数近似、Planning、策略梯度与 Actor-Critic、近似 DP、Multi-step 与 Off-Policy、Deep RL。比 2015 版更深入，增加了前沿内容。

中国大学课程

清华大学 Reinforcement Learning（Fall 2025）

地址：coai.cs.tsinghua.edu.cn/Courses/RL2025/_site/

本科生 RL 课程。从多臂老虎机开始，覆盖 MDP、Planning（DP）、MC、TD Learning、策略梯度、函数近似、Deep RL。4 个编程作业（Bandit → MDP → TD & PG → Deep RL）+ 课程项目。课件公开。

南京大学强化学习基础（俞扬，2024）

地址：lamda.nju.edu.cn/introrl

基于 Sutton & Barto 教材，9 讲覆盖 RL 基础概念、MDP、DP、MC、TD、DQN。5 个编程作业（Dagger → Q-Learning → DQN → Model-Based → Offline RL）。中文大学课程中理论基础最扎实的之一。

南京大学高级强化学习（袁雷，2025）

地址：lamda.nju.edu.cn/advanceRL

研究生进阶课程。覆盖 DDPG/TD3、PPO 及技巧、多智能体、RLHF/DPO 理论推导、论文阅读。

上海交通大学强化学习（张伟楠，2024）

地址：wnzhang.net/teaching/sjtu-rl-2024

使用《动手学强化学习》作为教材，9 章覆盖基础到前沿。

三、中文在线课程与教程

李宏毅深度强化学习（台湾大学）

地址：课程主页｜ B站 2025 版

以 Policy Gradient 为主线切入，深入讲解 PPO（含 Importance Sampling、On-policy → Off-policy 推导），然后讲 Q-Learning（DQN、Double DQN、Dueling DQN）、Actor-Critic。讲解生动，PPT 精美。PPO 部分是中文课程中讲得最深入的。

王树森深度强化学习

地址：B站视频

北大数学学院课程配套视频。五大模块：基本概念 → 价值学习（DQN）→ 策略学习（Policy Gradient）→ Actor-Critic（A3C、TRPO）→ 进阶（DDPG、AlphaGo、多智能体）。配套张志华《深度强化学习》教材。内容精炼，适合快速入门。

蘑菇书 EasyRL（Datawhale）

地址：在线版｜ GitHub

综合了周博磊《强化学习纲要》、李宏毅课程、百度《世界冠军带你从零实践强化学习》的精华。13 章 + 专题，覆盖基础到 DQN、PPO、DDPG、AlphaStar。中文社区最活跃的开源 RL 教程。

Spinning Up 中文版

地址：spinningup.qiwihui.com/zh-cn/latest

OpenAI Spinning Up 的中文翻译。包含核心概念、算法分类、策略梯度推导，以及 VPG、TRPO、PPO、DDPG、TD3、SAC 六个算法的实现。

四、LLM 强化学习专项资源

Nathan Lambert — RLHF Book + Course

地址：rlhfbook.com ｜ Course ｜ GitHub ｜ YouTube

AI2 研究员 Nathan Lambert 编写的 RLHF 专著。覆盖 RLHF 全流程：指令微调 → 奖励模型训练 → Rejection Sampling → PPO → DPO。代码库实现了 PPO、REINFORCE、GRPO、RLOO 等策略梯度方法。视频课程 4 讲。LLM 对齐领域最系统的公开教材。

Ernest Ryu — Reinforcement Learning of Large Language Models（UCLA）

地址：ernestryu.com/courses/RL-LLM.html

唯一一门把经典 RL 理论和 LLM RL 系统结合的大学课程。三部分：Ch1（5 讲经典 RL：MDP → VI → PG → PPO/GRPO → AlphaGo）→ Ch2（4 讲 LLM 基础：NLP → Transformer → ICL/SFT）→ Ch3（2 讲 LLM RL：RLHF/PPO/DPO → RLVR）。RL 基础讲得最深的 LLM RL 课程。

DeepLearning.AI — Reinforcement Fine-Tuning LLMs with GRPO

地址：deeplearning.ai/short-courses/reinforcement-fine-tuning-llms-grpo

1 小时短课程，10 节课。以 Wordle 游戏为贯穿案例，讲解 GRPO 算法、奖励函数设计、LLM-as-Judge、Reward Hacking。7 个代码实验。适合已有 LLM 基础、想快速上手 GRPO 的实践者。

Hugging Face — Deep RL Course

地址：huggingface.co/learn/deep-rl-course

8 个单元覆盖 Q-Learning → DQN → Policy Gradient → A2C/A3C → PPO → 多智能体 → Offline RL。每个单元配有理论和代码实践。Bonus 单元讲 RLHF。适合想用 Hugging Face 生态做 RL 实验的学习者。

五、实践教程与技术博客

OpenAI Spinning Up in Deep RL

地址：spinningup.openai.com

RL 基础教学的金标准。三部分：核心概念（V/Q/Bellman/Advantage）→ 算法分类（Model-Based vs Model-Free）→ 策略优化推导（从零推导 Policy Gradient）。实现了 VPG、TRPO、PPO、DDPG、TD3、SAC 六个算法。理论讲解和代码实现的最佳结合点。

Cameron Wolfe — Deep (Learning) Focus

地址：PPO for LLMs: A Guide for Normal People ｜ Online vs Offline RL for LLMs

系列博客，用通俗语言深入讲解 PPO 在 LLM 中的应用、Online vs Offline RL 的取舍、DPO 原理等。适合想理解"为什么 LLM RL 用这些算法"的读者。

Sebastian Raschka — Ahead of AI

地址：LLM Training: RLHF and Its Alternatives ｜ State of LLMs 2025

《Build a Large Language Model From Scratch》作者的技术博客。覆盖 RLHF、DPO、RLVR、GRPO、推理时扩展等前沿话题。

复现项目推荐

强化学习项目可以按时代拆成两条线。非 LLM 时代更关注固定仿真环境、游戏基准、连续控制、多智能体和模型学习；LLM 时代则把动作扩展成 token、工具调用、网页操作、视觉推理和长程 agent trajectory，奖励也从环境分数扩展到偏好模型、规则验证、过程奖励和真实任务成功率。

复现路线速查

目标方向	优先看这些资源	适合复现什么
经典算法入门	CleanRL、Stable-Baselines3、RL Baselines3 Zoo、Dopamine	DQN、PPO、SAC、TD3、Rainbow DQN、Atari 基准
环境与游戏基准	Gymnasium、Arcade Learning Environment、MiniGrid、Procgen、ViZDoom	CartPole、LunarLander、Atari、FPS、程序生成环境
多智能体与博弈	PettingZoo、OpenSpiel、SMAC、Google Research Football	自我对弈、合作/竞争 MARL、StarCraft micromanagement、足球
机器人与具身控制	MuJoCo、Isaac Lab、ManiSkill、Meta-World、LeRobot	连续控制、机械臂、移动机器人、模仿学习加 RL
Model-Based / 世界模型	DreamerV3、TD-MPC2、mbrl-lib、MBPO	从像素或状态学习动力学模型，再做规划或策略优化
LLM 后训练	OpenAI InstructGPT、TRL、NVIDIA NeMo-RL、verl	PPO、DPO、GRPO、RLHF、偏好对齐、奖励模型训练
LLM 推理	DeepSeek-R1、Open-R1、TinyZero、DAPO	RLVR、数学/代码推理、R1 类复现、verifier 设计
Deep Research RL	OpenAI Deep Research、Alibaba Tongyi DeepResearch、Search-R1、WebThinker	搜索、阅读、证据筛选、引用、研究型回答
Agentic RL	OpenAI Agents SDK、Google ADK、Agent Lightning、AReaL	代码、工具调用、网页浏览、长程任务成功率优化
GUI / Computer Use	OpenAI CUA、Anthropic Computer Use、UI-TARS、OSWorld	网页、桌面、手机 GUI 操作和视觉 grounding
VLM	TRL VLM GRPO、VLM-R1、Open Vision Reasoner、Gemini Robotics	图像问答、视觉推理、GUI/网页、机器人视觉操作、视觉语言奖励
生成模型 RL	DDPO、Diffusers DDPO、AlignProp、RLAIF-V、VideoAlign	用偏好、美学、安全和一致性奖励优化图像/多模态生成

强化学习方向速览

如果要系统地选择复现方向，建议按“算法问题 + 环境形态 + 奖励来源”三条轴来选。下面这张表可以作为长期维护的目录骨架。

分类	代表问题	推荐项目/框架
Value-Based RL	从 Q 值学习离散动作策略	DQN、Double DQN、Dueling DQN、Rainbow；Dopamine、CleanRL
Policy Gradient / Actor-Critic	直接优化策略，处理连续或随机动作	REINFORCE、A2C/A3C、PPO、TRPO；Stable-Baselines3、TRL PPO
Off-Policy / Maximum Entropy	提升样本效率，鼓励探索和鲁棒性	DDPG、TD3、SAC、REDQ；RL Baselines3 Zoo、Tianshou
Distributional RL	学习回报分布而不是单一期望	C51、QR-DQN、IQN、FQF；Dopamine、DI-engine
Exploration / Curiosity	稀疏奖励、长程探索、内在动机	RND、ICM、count-based exploration；MiniGrid、Procgen、DI-engine exploration docs
Model-Based RL	学习环境模型，再规划或想象 rollout	PETS、MBPO、Dreamer、TD-MPC；mbrl-lib、DreamerV3、TD-MPC2
Offline / Batch RL	只能使用离线数据，不能在线探索	BCQ、CQL、IQL、TD3+BC；D4RL、Minari、d3rlpy、CORL
Imitation / Reward Learning	从专家轨迹、偏好或逆强化学习中学习	BC、DAgger、GAIL、AIRL；imitation、robomimic、LeRobot
Goal-Conditioned / Hierarchical	长程任务、子目标、选项和技能	HER、Options、HIRO、skill discovery；MiniGrid/BabyAI、Meta-World
Meta-RL / Multitask / Generalization	跨任务迁移、快速适应、泛化	MAML-RL、PEARL、多任务 PPO/SAC；Meta-World、Procgen、LIBERO
Safe / Constrained RL	约束成本、风险、安全探索	CPO、PPO-Lagrangian、shielding；Safety-Gymnasium、OmniSafe
Multi-Agent RL / Game AI	合作、竞争、自我对弈、通信	QMIX、MADDPG、MAPPO、AlphaZero；PettingZoo、OpenSpiel、JaxMARL
Robotics / Embodied RL	连续控制、操作、导航、Sim2Real	PPO/SAC on robots、domain randomization、VLA；Isaac Lab、ManiSkill、robosuite、OpenVLA
Distributed / Systems RL	高吞吐 rollout、多机训练、生产化	IMPALA、APPO、分布式 PPO；Ray RLlib、Sample Factory、DI-engine、Acme
RLHF / Preference Alignment	从人类或 AI 偏好中优化语言/多模态模型	PPO、DPO、IPO、KTO、ORPO；OpenAI InstructGPT、Anthropic Constitutional AI、TRL、NeMo-RL
RLVR / Reasoning RL	规则可验证奖励、数学/代码推理、长 CoT	GRPO、DAPO、RLOO、REINFORCE++；DeepSeek-R1、Open-R1、DAPO、reasoning-gym
Agentic RL	搜索、工具调用、代码执行、网页/桌面任务	trajectory reward、tool-use reward、process reward；OpenAI Agents SDK、Google ADK、Agent Lightning、SkyRL
VLM / GUI / Computer-Use RL	图像理解、GUI grounding、网页/手机/桌面控制	多模态 GRPO、GUI action RL；OpenAI CUA、Anthropic Computer Use、VLM-R1、OSWorld
Generative Model RL	用奖励优化图像、视频、音频等生成模型	DDPO、AlignProp、RLAIF-V；DDPO、Diffusers DDPO、AlignProp、VideoAlign

非 LLM 时代：固定环境、仿真与经典算法

这一条线适合打牢 RL 基本功。推荐从小环境的单文件实现开始，逐步进入 Atari、连续控制、多智能体、机器人和 Model-Based RL。

环境与算法库

环境/工具	类型	说明	推荐用途
Gymnasium	通用 RL 环境	OpenAI Gym 的继任者，CartPole、LunarLander 等经典环境	入门、算法调试、课程实验
Arcade Learning Environment	游戏环境	Atari 2600 标准基准，DQN 系列论文常用环境	像素输入、离散动作、DQN 家族
MiniGrid	网格世界	轻量级 GridWorld，便于研究探索、稀疏奖励和泛化	入门探索、层级 RL、任务泛化
Procgen	程序生成游戏	关注泛化能力的 16 个程序生成环境	过拟合分析、泛化实验
ViZDoom	FPS 3D 环境	第一人称射击游戏，部分可观察、视觉输入、长程决策	视觉策略、POMDP、导航与战斗
Stable-Retro	经典游戏	复古主机游戏的 Gymnasium 风格封装	经典游戏复现、课程展示
MuJoCo	物理仿真	高精度物理引擎，HalfCheetah、Ant、Humanoid 等基准	PPO、SAC、TD3、连续控制
PyBullet	物理仿真	开源机器人仿真，生态轻量	机器人入门、替代 MuJoCo 实验
Isaac Lab	GPU 并行仿真	NVIDIA Isaac Gym 继任者，适合大规模并行机器人训练	大规模具身 RL、Sim2Real
ManiSkill	机器人操作	面向机械臂操作、视觉控制和大规模并行仿真的基准	视觉操作、模仿学习加 RL
Meta-World	多任务机器人	机械臂多任务基准	多任务 RL、元学习、泛化
PettingZoo	多智能体环境	多智能体版 Gymnasium，支持合作与竞争场景	MARL 入门、并行/轮流行动接口
OpenSpiel	博弈框架	棋类、卡牌、矩阵博弈和多智能体算法集合	自我对弈、CFR、AlphaZero 变体
Ray RLlib	分布式 RL	Ray 生态里的分布式 RL 库	大规模训练、多智能体生产实验
CleanRL	算法实现	单文件、可读性强、复现实验友好	学算法细节、写课程代码
Stable-Baselines3	算法库	封装好的 DQN、PPO、SAC、TD3 等实现	快速跑 baseline、调参、对比
Dopamine	Atari 算法库	Google 的 DQN/Rainbow/IQN 研究框架	Atari 论文复现、分布式价值学习

阶段	项目建议	推荐工具	验收标准
1	CartPole、MountainCar、LunarLander	Gymnasium、CleanRL、Stable-Baselines3	能画 reward curve，理解 replay 与 GAE
2	DQN / Rainbow on Atari	ALE、Dopamine、CleanRL	复现至少 1 个 Atari 小实验
3	PPO / SAC / TD3 on MuJoCo	MuJoCo、Stable-Baselines3、RL Baselines3 Zoo	能解释 entropy、target network、Q bias
4	自我对弈与多智能体	PettingZoo、OpenSpiel、SMAC、Google Research Football	能区分合作、竞争、混合博弈
5	机器人操作与视觉控制	Isaac Lab、ManiSkill、Meta-World、LeRobot	能跑通并行仿真或 imitation-to-RL 流程
6	Model-Based RL / World Model	DreamerV3、TD-MPC2、mbrl-lib、MBPO	能解释 latent dynamics 和 planning

进阶方向与练习建议

方向	推荐复现项目	可做成什么课程作业
单文件算法实现	CleanRL 的 DQN、PPO、SAC、C51、PPO-LSTM	从 200 行到 500 行写清楚 replay、GAE、target network、entropy
高性能 RL 系统	Sample Factory、Ray RLlib、DI-engine	对比单机、多进程、分布式 rollout 的吞吐和样本效率
JAX / GPU 并行	Brax、PureJaxRL、JaxMARL	用 jit/vmap/pmap 跑大批量环境，理解“环境也可加速”的工程范式
离线强化学习	D4RL + CQL/IQL/TD3+BC、Minari、d3rlpy、CORL	比较 online RL 和 offline RL 的 extrapolation error
模仿学习	Behavior Cloning、DAgger、GAIL、AIRL；imitation、robomimic	从专家轨迹训练策略，再用 RL fine-tune
奖励学习与偏好学习	GAIL/AIRL、偏好比较、reward model	构造“人类偏好”或脚本偏好，观察 reward hacking
安全与约束 RL	Safety-Gymnasium、OmniSafe、PPO-Lagrangian、CPO	同时画 reward curve 与 cost curve，学习约束优化
探索与稀疏奖励	MiniGrid、Montezuma's Revenge、Procgen；RND、ICM、episodic curiosity	研究内在奖励是否真的提升探索，而不是只刷训练分数
层级与目标条件 RL	HER、Options、HIRO、BabyAI、Meta-World	把长程任务拆成子目标，比较 flat policy 和 hierarchical policy
多任务与泛化	Procgen、Meta-World、LIBERO、ContinualWorld	训练环境分数高不够，还要测未见任务和未见种子
多智能体合作/竞争	PettingZoo、OpenSpiel、SMAC、Google Research Football、JaxMARL	比较 independent PPO、MAPPO、QMIX、自我对弈
机器人操作	MuJoCo、Isaac Lab、ManiSkill、robosuite、Meta-World	做 reaching、pushing、pick-and-place，再加入视觉输入
世界模型与规划	DreamerV3、TD-MPC2、mbrl-lib、MBPO、IRIS	先学动力学模型，再比较 model-free 与 model-based 的样本效率
产业应用	RecSim、FinRL、Pearl	推荐、广告、金融交易中的 bandit/RL 实验，重点讨论离线评估和风险

Unity ML-Agents 入门

Unity ML-Agents 是一个独特的 RL 工具包，它让训练直接在 3D 游戏引擎中进行。与 Gymnasium 的 2D 网格或 PyBullet 的纯物理仿真不同，ML-Agents 提供完整的 3D 空间，包括遮挡、透视、重力和碰撞，适合研究视觉导航和空间推理。

典型使用场景：

python

# Unity ML-Agents 与 Gymnasium 接口兼容
from mlagents_envs.environment import UnityEnvironment

# 加载预构建的 Unity 环境（3D 平台跳跃）
env = UnityEnvironment(file_name="3DBall")

# ML-Agents 使用自己的 API，但可以包装为 Gymnasium 接口
from mlagents_envs.gym_utils import UnityToGymWrapper
gym_env = UnityToGymWrapper(env)

# 之后就可以用 Stable-Baselines3 训练
from stable_baselines3 import PPO
model = PPO("MlpPolicy", gym_env)
model.learn(total_timesteps=100000)

经典 ML-Agents 环境示例：

环境	任务类型	难度	适合练习
3DBall	平衡控制	入门	理解连续动作空间
Crawler	四足行走	中等	连续控制 + 多关节协调
Walker	二足行走	中等	对比 PyBullet 的 Walker2d
PushBlock	推方块	入门	目标条件 RL
FoodCollector	收集食物	中等	多目标 + 导航
HideAndSeek	多智能体捉迷藏	高级	多智能体涌现行为

安装和环境获取方式参见环境安装指南。

经典里程碑项目参考

以下是非 LLM 时代常见的 30 个游戏与仿真复现方向，按主题整理：

经典/棋盘游戏

#	名称	游戏/环境	年份	关键信息
1	TD-Gammon	西洋双陆棋 (Backgammon)	1992	Gerald Tesauro，通过自我对弈强化学习达到人类专家水平
2	Deep Blue	国际象棋 (Chess)	1997	IBM，击败世界冠军卡斯帕罗夫，搜索为主，非纯 RL
3	AlphaGo	围棋 (Go)	2016	DeepMind，RL + MCTS 击败李世石
4	AlphaGo Zero	围棋 (Go)	2017	不使用人类棋谱，从自我对弈中学习
5	AlphaZero	围棋/国际象棋/将棋	2017	通用棋类 RL 算法，同时掌握三种棋类
6	MuZero	围棋/象棋/Atari	2020	不依赖显式游戏规则，同时学习模型和策略

Atari 系列

#	名称	游戏/环境	年份	关键信息
7	DQN (Playing Atari with Deep RL)	Atari 2600	2013	首次用深度 RL 从像素直接学习多款游戏策略
8	Human-level Control through DRL	Atari 2600	2015	Nature 2015，DQN 改进版，在多款 Atari 游戏上达到人类水平
9	Prioritized Experience Replay	Atari	2015	改进经验回放，优先采样高 TD error 经验
10	Rainbow DQN	Atari	2017	整合 Double DQN、Dueling、PER、NoisyNet、Distributional RL、n-step return
11	IQN (Implicit Quantile Networks)	Atari	2018	分布强化学习，学习回报分布的分位数表示

即时战略 / MOBA

#	名称	游戏/环境	年份	关键信息
12	SC2LE (StarCraft II Learning Environment)	星际争霸2	2017	DeepMind 提供 StarCraft II 的 RL 研究环境和基准
13	AlphaStar	星际争霸2	2019	多智能体 RL 达到 Grandmaster 级别
14	TStarBot	星际争霸2	2019	腾讯提出的 StarCraft II 智能体系统
15	OpenAI Five	Dota 2	2019	5v5 击败世界冠军 OG，大规模分布式 RL
16	Honor of Kings 1v1	王者荣耀	2020	腾讯 AI Lab，双裁剪 PPO，掌握复杂操作控制
17	Honor of Kings 5v5	王者荣耀	2020	多英雄、多角色、全局协作的 MOBA AI 系统
18	Honor of Kings Arena	王者荣耀	2022	开放式 MOBA RL 环境，关注泛化性挑战
19	Mini Honor of Kings	王者荣耀	2024	轻量级 MARL 环境，适合个人设备和课程项目

FPS / 3D 游戏

#	名称	游戏/环境	年份	关键信息
20	Playing FPS Games with Deep RL	ViZDoom	2016	将深度 RL 用于 FPS 游戏，包含视觉输入和部分可观察状态
21	Quake III Arena: Capture the Flag	雷神之锤3 CTF	2019	DeepMind，复杂团队协作和多智能体涌现行为
22	Obstacle Tower	Unity 3D	2019	测试 3D 导航、视觉泛化和长程探索
23	Sample Efficient RL in Minecraft	Minecraft/MineRL	2021	使用人类示范数据提升 Minecraft 中的样本效率

体育/竞速/其他

#	名称	游戏/环境	年份	关键信息
24	Google Research Football	足球 11v11	2020	开源足球模拟器，支持多智能体 RL 研究
25	RL in Rocket League	火箭联盟	2022	赛车加足球混合游戏中的高维连续控制与团队协作
26	Deep RL for Flappy Bird	Flappy Bird	2015	早期深度 RL 游戏实践项目

多智能体/综合

#	名称	游戏/环境	年份	关键信息
27	Deep RL for General Game Playing	通用棋类	2020	将 AlphaZero 类方法推广到通用博弈
28	OpenSpiel	棋类/卡牌	2019	DeepMind 博弈框架，包含多种游戏和经典博弈算法
29	Hide-and-Seek	多智能体捉迷藏	2019	OpenAI，多智能体自博弈中涌现工具使用和复杂策略
30	Multi-Agent RL in Video Games	综述	2025	覆盖 Rocket League、Doom、Minecraft、StarCraft、Dota、MOBA 等方向

LLM 时代：后训练、推理、Agentic、VLM 与世界模型

LLM 时代的 RL 不再只是“在固定环境里最大化分数”。动作可以是一段文本、一次搜索、一次工具调用、一个网页点击、一个代码补丁、一次视觉定位，甚至是一整条多步 agent trajectory。奖励也从环境分数扩展到偏好模型、规则验证、过程奖励、单元测试、网页任务成功率和多模态 grounding 信号。

现代与经典资源速查

阅读顺序建议是先看经典论文和官方说明建立概念，再挑一个“小模型 + 可验证 reward”的项目跑通，最后进入分布式训练、Deep Research、GUI/Computer Use 和多模态环境。

方向	推荐先看	类型	为什么值得看
RLHF / 后训练经典	OpenAI InstructGPT、Anthropic Constitutional AI、Meta Llama 3	经典论文/官方说明	理解 SFT、RM、PPO、DPO、RLAIF 和安全对齐的基本范式
现代后训练工程	NVIDIA NeMo-RL、verl、OpenRLHF、DAPO	生产/研究训练框架	直接看 rollout、vLLM/SGLang、Ray、Megatron、GRPO/DAPO、异步 agentic RL 怎么落地
推理 RLVR	DeepSeek-R1、DeepSeek-R1 Nature、Open-R1、TinyZero	现代 reasoning 复现	最适合学习 verifiable reward、GRPO/RLVR、冷启动数据、长推理和 reward hacking
开源大模型底座	Qwen3.6、Qwen3、Meta Llama Models	开源模型	适合拿来做 SFT/DPO/GRPO、工具调用、长上下文和 agentic coding 实验
Deep Research	OpenAI Deep Research、Alibaba Tongyi DeepResearch、WebThinker、Search-R1	产品/开源研究	把搜索、阅读、证据筛选、引用和长报告合成变成可训练 trajectory
Agent 框架与工具调用	OpenAI Agents SDK、Google ADK、Microsoft Agent Lightning、AutoGen	Agent 工程框架	学工程边界：tools、handoff、guardrails、tracing、session、agent trajectory 和 RL 接口
GUI / Computer Use	OpenAI CUA、Anthropic Computer Use、ByteDance UI-TARS、OSWorld	模型/工具/基准	现代 computer use 的核心材料：截图、坐标动作、网页/桌面/手机任务成功率
VLM / VLA / 机器人	VLM-R1、Open Vision Reasoner、Gemini Robotics、LeRobot	多模态/具身	把视觉问答、定位、GUI 点击、机器人动作和可验证奖励接起来
世界模型	DreamerV3 Nature、DreamerV3 Code、Google DeepMind Genie 3、Isaac Lab	经典/前沿/仿真	从可复现 world model 到交互式世界生成，再到机器人并行仿真
生成模型 RL	DDPO、Diffusers DDPO、AlignProp、RLAIF-V、VideoAlign	图像/视频/多模态奖励	学会把美学、偏好、安全、图文一致性或视频质量变成优化目标

子标题导航：

LLM 后训练
LLM 推理
Deep Research RL
Agentic RL 与工具调用
GUI 与 Computer Use
VLM
世界模型与模拟器
生成模型 RL
评测基准和项目
复现顺序建议

LLM 后训练

LLM 后训练主要处理“模型如何更符合人类偏好、任务格式和安全约束”。这一层的关键词是 SFT、Reward Model、PPO、DPO、KTO、ORPO、RLOO、GRPO。入门建议先用小模型跑通 TRL，再进入 OpenRLHF、verl、NeMo-RL 这类分布式训练栈。

这一方向要先分清三件事：数据从哪里来、奖励怎么给、策略怎么更新。SFT 解决“会不会按格式回答”，偏好优化解决“两个回答更喜欢哪个”，PPO/GRPO/RLOO 解决“模型自己采样之后，如何根据奖励继续变好”。很多后训练项目失败，并不是算法写错，而是这三件事混在一起：用 SFT 数据期待模型产生探索，用偏好数据期待模型学会可验证推理，或者用过于单薄的 reward 期待模型获得稳定能力。

复现目标

最小项目可以这样设计：选一个 0.5B 到 3B 的 instruct 模型，先用少量指令数据做 SFT，再用 DPO/KTO 做一轮偏好优化，最后用规则奖励或小型 reward model 做 PPO/GRPO。每一步都保存 20 到 50 条固定评测 prompt，观察回答长度、格式遵守率、拒答率、重复句式和人工偏好变化。这样你不是只在跑 loss，而是在看“后训练到底改变了什么行为”。

选型建议

如果目标是理解算法，优先用 TRL，因为它暴露的 Trainer 接口最适合拆 loss、reward 和 KL。如果目标是中文模型快速出结果，用 LLaMA-Factory 或 ms-swift 更省时间。如果目标是理解工业训练系统，就要看 OpenRLHF、verl、NeMo-RL：它们真正关心的是 rollout、训练、推理引擎、权重同步、显存和吞吐，而不只是一个损失函数。

资源	重点	适合做什么
OpenAI InstructGPT	SFT、Reward Model、PPO 的经典范式	理解 RLHF 为什么成为 LLM 后训练主线
Anthropic Constitutional AI	RLAIF、安全偏好、原则反馈	理解“AI feedback + 偏好优化”的经典路线
Meta Llama 3	开源模型的 post-training 说明	看工业模型如何组织预训练、指令微调和安全评测
Hugging Face TRL	PPO、DPO、KTO、ORPO、RLOO、GRPO	小规模后训练实验、算法理解、课程演示
OpenRLHF	Ray、vLLM、DeepSpeed、PPO/GRPO/DPO	大模型 RLHF/RLVR 工程复现
verl	分布式 rollout、PPO/GRPO/DPO/SFT	R1 类训练管线、复杂 reward 训练
Open-Instruct	SFT、DPO、PPO、偏好对齐	学习完整开源对齐流程
NeMo-RL	NVIDIA 生态的大规模 RL 训练	多 GPU 后训练、生产级训练栈
DAPO	Decoupled Clip、动态采样、token-level policy gradient	研究 R1 类训练 recipe 如何从论文走向代码
LLaMA-Factory	SFT、DPO、PPO、KTO、ORPO	中文社区常用，适合快速跑通实验
ms-swift	SFT、RLHF、GRPO、多模态微调	中文模型、多模态模型后训练

常见坑

只看 reward 曲线：reward 上升不一定代表质量上升，可能只是回答变长、格式更讨巧、模板更固定。
跳过固定评测集：没有固定 prompt，就很难判断模型是真的变强，还是采样随机性造成的错觉。
忽略 KL 和长度：后训练最容易把模型推向“长、啰嗦、保守、重复”的局部最优。
直接上大框架：没有先在 TRL 跑清楚 reward 和 loss，大规模框架只会把问题放大。

LLM 推理

推理型 RL 的核心不是“让回答更像人类喜欢的答案”，而是“让模型在数学、代码、逻辑、符号任务里学会可验证的推理过程”。这里常见奖励来自最终答案、单元测试、格式校验、符号执行器和过程检查器。

这一方向和普通 RLHF 的关键区别在于：奖励不一定来自人类偏好，而可以来自 verifier。数学题能判答案，代码题能跑测试，格式题能正则校验，符号题能用解释器执行。只要 verifier 足够可靠，模型就可以通过大量自采样获得训练信号。这也是 RLVR、GRPO 和 R1 类工作适合放在一起看的原因。

复现目标

第一阶段建议从 Countdown、算术、格式化 JSON、简单 Python 函数这类任务开始。目标不是追求榜单，而是亲手看到四个现象：模型会探索不同解法；错误答案也可能有高置信推理；奖励稀疏时训练很不稳定；一旦 verifier 有漏洞，模型很快会钻漏洞。第二阶段再迁移到 GSM8K、MATH、代码单测或 reasoning-gym 生成任务。

项目拆法

一个干净的推理 RL 项目至少有五个文件层次：任务生成、答案解析、reward function、rollout 采样、训练配置。不要把答案解析藏在 reward 里，否则 badcase 会很难查。每次训练后都要抽样保存“题目、模型完整输出、解析出的答案、标准答案、reward、失败原因”，这比单看平均分有用得多。

资源	重点	适合做什么
DeepSeek-R1	R1/R1-Zero、RLVR、蒸馏模型	直接阅读现代 reasoning RL 的官方开源入口
DeepSeek-R1 Nature	DeepSeek-R1 的正式论文版本	对照理解 cold start、RL、拒答/可读性和评测
Qwen3.6	Alibaba Qwen 新一代开源模型	作为现代底座测试 SFT、GRPO、工具调用和长上下文
Qwen3	thinking / non-thinking 模式	比较推理模型和普通 instruct 模型的训练与推理差异
Open-R1	DeepSeek-R1 训练组件复现	研究 reasoning model 的数据、SFT、RL 和评测流程
Open-Reasoner-Zero	从零训练 reasoning model 的开源框架	复现 R1-Zero 式 RLVR、数据生成和评测流程
TinyZero	小规模 R1-Zero 式 RLVR	用 Countdown 等任务理解 GRPO/RLVR
DAPO	去 KL、难题采样、clip-higher、token-level policy gradient	理解 2025 年后 R1 类 recipe 的工程细节
Absolute Zero Reasoner	不依赖人工标注推理数据的自博弈式 reasoning RL	研究 code executor、self-play 和 verifier 组合
rLLM / DeepScaleR	数学、代码、agent 任务上的 GRPO、REINFORCE、RLOO	研究长上下文、可验证奖励和 agent trajectory 训练
reasoning-gym	自动生成推理任务	自定义 verifier 和可验证训练任务
Math-Verify	数学答案解析与校验	给数学推理任务写 reward function
OpenThoughts	开源 reasoning 数据与配方	构造 R1 类 SFT/RL 数据和评测集

常见坑

答案解析太脆：模型答对了但解析失败，或答错了却因为格式漏洞拿到奖励。
把长推理当成好推理：推理变长可能只是模型学会拖延，不代表逻辑更正确。
训练集太容易：reward 很快饱和，模型只学会固定模板。
训练集太难：几乎全是 0 reward，策略没有梯度信号。

Deep Research RL

Deep Research RL 关注“模型如何主动检索、阅读、筛选证据并生成研究型回答”。它和普通 RAG 的区别是：检索行为本身也是策略，模型需要学习什么时候搜、搜什么、读哪些页面、如何引用证据，以及什么时候停止。

普通 RAG 的检索通常是一次性的：用户提问，系统取回若干文档，模型生成答案。Deep Research 更像多轮决策：先把问题拆开，搜索第一批资料，阅读后发现缺口，再改写查询，继续追证据，最后综合成报告。RL 的价值在于训练这些中间决策，而不仅是训练最后一段文字。

复现目标

最小复现不必一开始接真实互联网。可以先准备一个静态文档库，封装 search、open、find 三个工具，让模型在受控环境里完成多跳问答。奖励可以分成四项：最终答案是否正确、引用是否来自真实文档、证据是否支持结论、工具调用次数是否合理。等这个闭环稳定后，再迁移到 BrowserGym、WebArena 或真实搜索环境。

观察重点

Deep Research 的日志比最终答案更重要。你要看模型是否会重复搜索同一个关键词，是否只打开排名第一的页面，是否引用没有读过的来源，是否在证据不足时强行下结论。好的 agent 不只是“答对”，还应该表现出规划、交叉验证、遇到冲突时回查、证据不足时收缩结论范围。

资源	重点	适合做什么
OpenAI Deep Research	产品级 deep research agent	对照真实产品形态，理解长程检索、证据整合和报告输出
Alibaba Tongyi DeepResearch	开源 deep research 系列研究集合	追 WebWalker、WebDancer、WebSailor、WebWatcher 等路线
Search-R1	搜索增强推理 RL	训练模型在推理中主动检索和整合证据
RAGEN	生成式 agent 环境与 reasoning trajectory	构造 research/search 环境并训练多步策略
rLLM	搜索、数学、代码、金融等可验证 agent 任务	把 reward function、rollout 和 trainer 解耦
DeepResearcher	面向 deep research 的 RL 训练框架	研究多步检索、信息筛选和长答案合成
WebThinker	Web search + reasoning 的 deep research agent	训练/评测带搜索的长程推理策略
WebArena	真实网站任务环境	做网页信息查找、跨页面任务和最终成功率评测
BrowserGym	浏览器环境统一接口	把搜索、点击、阅读、表单填写接成 agent 训练环境
Mind2Web	网页操作数据集	从行为克隆过渡到网页 agent RL

常见坑

只奖励最终答案：长程任务里只给终态 reward，信用分配会非常困难。
引用数量当质量：模型可能学会堆链接，而不是用证据支撑论断。
真实网页不可复现：页面变化、搜索排序变化、链接失效都会污染训练结果。
忽略成本约束：无限搜索可以提高命中率，但真实系统必须控制延迟和调用成本。

Agentic RL 与工具调用

Agentic RL 的动作不只是输出 token，而是调用工具、执行代码、浏览网页、修改文件、查数据库或和外部系统交互。它的难点在于轨迹长、动作异构、奖励延迟、失败类型复杂，所以比普通 RLHF 更依赖环境封装、trajectory 切分和 verifier 设计。

这一方向可以看成“把 LLM 放进一个有状态环境里训练”。模型每一步输出的不只是自然语言，还可能是工具名、参数、代码片段、SQL、shell 命令或下一步计划。训练数据也不再是单条 prompt-response，而是一整条 episode：状态、动作、工具返回、环境变化、奖励和终止原因都要记录。

复现目标

入门项目建议从低风险工具开始：计算器、文件搜索、受限 Python 执行器、文本世界环境。先让模型学会“什么时候该调用工具”，再学“调用什么工具”，最后才学复杂参数生成。代码 agent 可以用单元测试作为 reward，业务流程 agent 可以用数据库状态是否满足约束作为 reward，网页 agent 可以用任务完成率作为 reward。

工程拆分

不要一上来就把 agent 框架、环境、reward、trainer 写在一起。更稳的结构是：环境只负责执行动作和返回 observation；reward 只负责判分；trajectory store 只负责记录；trainer 只消费转换后的样本。Agent Lightning、AReaL、SkyRL 这类项目值得看的地方，正是它们如何把这些边界拆开。

资源	重点	适合做什么
OpenAI Agents SDK	tools、handoffs、guardrails、tracing	搭一个现代 agent 外壳，再把轨迹接到评测或 RL 数据管线
Google ADK	code-first agent、评测、部署	学 Google 风格的 agent 工程接口和多工具编排
AutoGen	多 agent 对话、工具与应用框架	做多 agent 协作、代码/数据任务和 agent baseline
Agent Lightning	将 agent 执行轨迹拆成可训练 transition	给已有 LangChain、AutoGen、OpenAI Agents 等系统接 RL
AReaL	异步 LLM RL 与 agentic RL	研究 rollout 与训练解耦、异步更新和系统吞吐
SkyRL	大规模 LLM/agent RL training stack	理解 rollout、trainer、reward、evaluation 的工程分层
AgentGym	多环境 LLM agent 训练	做多任务 agent 训练和环境接口对比
ALFWorld、ScienceWorld	文本世界与科学实验环境	低成本研究长程规划、语言动作和稀疏奖励
ToolBench	API 工具调用	研究 tool selection、参数生成和调用成功率
tau-bench	真实业务流程中的工具 agent	客服、订单、数据库状态、多轮约束任务
WebShop	网购搜索和决策	经典 language agent 环境，可做 supervised-to-RL
SWE-bench	软件工程 agent 评测	用测试通过率作为代码 agent 的可验证奖励
SWE-Gym	软件工程 RL 环境	训练 coding agent 的交互式环境
Terminal-Bench	终端任务 agent	研究 shell action、长程执行和任务成功率

常见坑

工具返回参与 loss：工具输出不是模型生成的 token，不应该让模型为工具结果负责。
环境状态不可恢复：一次失败污染后续任务，训练数据会变得难以解释。
奖励太晚：只在最后给成功/失败，模型不知道哪一步决策出了问题。
动作空间过大：直接开放 shell、浏览器和文件系统，会让探索极其低效。

GUI 与 Computer Use

GUI/Computer Use 方向把动作空间从 token 扩展到点击、输入、滚动、快捷键、窗口切换和坐标定位。它和 Deep Research 的网页阅读不同，更强调真实界面状态变化、视觉 grounding、长程操作和任务完成率。

GUI agent 的难点在于“同一句动作描述，在不同屏幕状态下可能完全不同”。按钮位置会变，弹窗会出现，滚动区域会遮挡，移动端和桌面端布局也不同。因此这里的核心不是让模型背 UI，而是让它把截图、DOM、可访问性树、历史动作和任务目标对齐起来。

复现目标

建议先从行为克隆或 action ranking 开始，而不是直接 RL。用 Mind2Web 或 BrowserGym 这类环境，让模型在给定网页状态下选择下一步动作；等动作格式稳定后，再引入 online rollout 和任务成功奖励。桌面 GUI 和手机 GUI 可以先做短任务，例如打开设置、查找信息、填写简单表单，再扩展到跨应用多轮流程。

资源	重点	适合做什么
OpenAI CUA	Operator 背后的 computer-using agent	看现代 GUI agent 如何结合视觉、推理、鼠标键盘动作和安全边界
Anthropic Computer Use	Claude 的 computer use 工具接口	学截图、坐标动作、工具回传、beta API 和安全注意事项
ByteDance UI-TARS	原生 GUI agent 模型	做桌面/网页/移动端统一 GUI 操作和 grounding 复现
WebArena	真实网站任务环境	网页表单、账户管理、购物、内容管理任务
VisualWebArena	多模态网页 agent	结合截图、DOM 和语言进行网页操作
BrowserGym	浏览器环境统一接口	接入网页 agent、VLM agent 和 RL rollout
Mind2Web	网页操作数据集	从行为克隆、action ranking 过渡到 online RL
OSWorld	桌面 GUI agent 基准	真实软件任务、截图理解、坐标动作和任务成功率
AndroidWorld	Android 手机 agent	手机 UI 操作、应用间跳转和长程任务

常见坑

坐标过拟合：模型记住屏幕位置，而不是理解控件语义。
截图和 DOM 不一致：视觉上可见的东西，DOM 中未必容易定位；DOM 中存在的元素，也可能被遮挡。
评测只看最终页面：有些任务需要中间状态正确，例如保存设置、提交表单、确认订单。
缺少失败分类：点击错、没找到、格式输错、页面加载慢，应该分开统计。

VLM

VLM 方向的 RL 重点是把视觉理解、语言推理和动作 grounding 连起来。奖励可以来自图文答案正确性、OCR、bbox/point 定位、GUI 点击位置、机器人任务成功率，也可以来自 ImageReward 这类偏好模型。

VLM RL 不只是“给图片问答加一个奖励”。它至少包含四类任务：视觉问答、空间定位、GUI 操作和视觉控制。不同任务的 reward 完全不同：问答看答案，定位看 IoU 或点位误差，GUI 看动作是否改变了界面状态，机器人看任务是否完成。复现时要先选清楚任务类型，否则 reward 很容易写成四不像。

复现目标

最小项目可以从图文答案校验开始，例如给定图片和问题，让模型输出固定格式答案，用规则或外部标注判分。第二步做 grounding，让模型输出 bbox 或点击点，用 IoU、距离误差或目标命中率评估。第三步再进入 GUI 或机器人任务，因为这些任务会引入连续状态、长程动作和真实环境噪声。

训练观察

VLM 训练必须保存可视化 badcase。只保存文本日志是不够的：你需要把原图、模型标注点、目标框、输出答案和 reward 放在一起看。很多错误不是推理错，而是 OCR 读错、目标物体太小、坐标系转换错、图片缩放后点位偏移，或者模型被图中无关文字带偏。

资源	适合复现	关注点
TRL GRPO Trainer	VLM 的 GRPO/RLVR 入门	可把 reward 写成图文答案正确性、格式、定位质量
HF VLM GRPO Cookbook	小规模 VLM GRPO 实操	从数据、reward function 到训练脚本的端到端示例
VLM-R1	视觉语言模型的 RL reasoning	适合看多模态 chain-of-thought 与可验证奖励
LMM-R1	多模态 reasoning 的两阶段训练框架	研究 cold start、GRPO 和 VLM 推理链
Open-Vision-Reasoner	视觉推理模型的 RL 训练	将 R1-Zero 类方法迁移到多模态推理
RL4VLM	视觉语言模型上的 RLHF / RLVR	项目页汇总了 RL 对 VLM 对齐和推理的研究脉络
Gemini Robotics	Google DeepMind VLA / embodied reasoning	理解 VLM/VLA 如何走向真实机器人动作和多步任务
LeRobot	真实/仿真机器人数据、模仿学习和 RL	适合从视觉动作数据过渡到具身 RL
RoboCasa	家庭场景机器人操作	适合研究多任务视觉控制、语言条件任务和泛化
ManiSkill	视觉操作与并行机器人环境	可连接 VLM policy、视觉 reward 和底层控制
VisualWebArena	多模态网页 agent	需要图像、DOM 和语言共同 grounding
OSWorld	桌面 GUI agent	适合研究截图理解、坐标动作和真实软件任务
AndroidWorld	Android 手机 agent	手机 UI 操作、视觉 grounding 和长程任务
OpenVLA	vision-language-action model	适合连接 VLM、机器人动作和下游 RL fine-tuning
LIBERO	终身机器人学习	多任务、语言条件、泛化和视觉操作
ImageReward	图像生成/多模态奖励模型	可作为生成模型或 VLM 偏好优化的 reward signal

常见坑

只看文本正确率：视觉 grounding 错了，答案可能仍然碰巧正确。
坐标系混乱：原图尺寸、模型输入尺寸、渲染尺寸不一致时，bbox/point 很容易错位。
数据泄漏：一些 VQA benchmark 可能被预训练见过，需要用自建或时间切分数据补充评测。
奖励不可解释：偏好模型给高分时，要能回看它到底奖励了什么视觉属性。

世界模型与模拟器

世界模型关注“智能体能否学习一个可用于想象和规划的环境模型”。在经典 RL 中，它连接 Model-Based RL、规划和样本效率；在 LLM/Agent 时代，它也可以作为可控模拟器，用于训练长程任务、网页/工具环境和具身智能。

世界模型的价值不是“替代真实环境”，而是降低试错成本。智能体先从真实交互中学习一个近似动力学模型，再在模型里做短 rollout、规划或策略改进。关键问题永远是 model bias：模型只要有一点系统性错误，规划器就可能反复利用这个错误，最后学到现实中不可用的策略。

复现目标

入门可以先做一个二维连续控制或 CartPole 变体：收集真实 transition，训练一个预测下一状态和奖励的小模型，再比较 model-free PPO/SAC 与 model-based rollout 的样本效率。进阶再看 DreamerV3、TD-MPC2、MBPO：它们分别代表 latent imagination、MPC planning 和短模型 rollout 三种典型路线。

和 LLM Agent 的关系

在 Agentic RL 中，模拟器也可以是“任务世界模型”：网页快照、工具返回、用户状态、数据库状态，都可以被封装成可复现环境。这样训练时不必每次访问真实网站或真实业务系统，而是在记录好的状态转移中训练策略。它不能完全代替真实环境，但非常适合做离线调试、badcase 回放和课程项目。

资源	适合复现	关注点
DreamerV3 Nature	世界模型通用能力论文	看 fixed hyperparameters、Minecraft、Atari、控制任务等结果
Google Research Dreamer	Dreamer 系列官方入门	用官方解释理解 latent imagination 和 actor-critic
DreamerV3	像素输入世界模型	latent dynamics、想象 rollout、actor-critic
Google DeepMind Genie 3	交互式生成世界模型	了解 world model 如何从控制环境走向可交互世界生成
TD-MPC2	连续控制和多任务 MBRL	learned latent model、MPC planning、样本效率
mbrl-lib	PETS、MBPO 等经典 MBRL	动力学模型、uncertainty、planning
MBPO	Model-Based Policy Optimization	短模型 rollout 加 off-policy RL
IRIS	Atari 世界模型	离散 latent tokens、transformer dynamics、imagined rollout
DayDreamer	机器人世界模型	把 Dreamer 思路迁移到真实/仿真机器人任务
Brax	可微分物理和并行仿真	适合研究高吞吐 model-free 与 model-based 控制
Isaac Lab	大规模机器人 RL	GPU 并行环境、domain randomization、Sim2Real
LeRobot	数据驱动具身智能	imitation learning、diffusion policy、RL fine-tuning
RoboCasa	家庭场景机器人操作	长程任务、多物体交互、语言条件控制

常见坑

模型 rollout 太长：预测误差会随步数累积，短 rollout 往往更稳。
只报告最终得分：还要报告真实环境样本数、模型训练开销和规划开销。
忽略不确定性：模型不知道自己不知道时，策略会跑到模型最不可靠的区域。
仿真太干净：机器人和 GUI 任务尤其需要噪声、延迟、遮挡和随机初始状态。

生成模型 RL

生成模型 RL 关注用奖励函数直接优化图像、视频或多模态生成结果。它和语言 RLHF 很像，但奖励通常来自美学分、图文一致性、安全性、偏好模型或人工/AI feedback。

这里可以把扩散模型的一次采样过程看成一条 trajectory：从噪声出发，经过多步去噪，最终得到图像。奖励通常只在最终图像上计算，例如美学分、文本一致性、安全分类、人工偏好或多模态模型打分。DDPO 这类方法的核心，就是把生成过程纳入 policy gradient，而不是只做监督式微调。

复现目标

最小项目可以选择一个很窄的 prompt 集，例如“生成清晰的单个物体”“生成带指定颜色的图标”“生成符合文字描述的简单场景”。先固定 base model 和采样参数，再比较三类 reward：CLIP/图文一致性、美学或偏好分、规则化安全约束。每次训练后保存同一批 prompt 的 before/after 图片，肉眼检查 reward 是否真的对应质量提升。

资源	重点	适合做什么
DDPO	扩散模型 RL 的经典实现	理解把 denoising steps 看成 MDP 后如何做策略梯度
Diffusers DDPO	用 DDPO 微调扩散模型	复现文本到图像模型的 policy gradient 优化
ddpo-pytorch	DDPO 原始开源实现	研究扩散模型采样轨迹上的 RL 更新
AlignProp	通过可微奖励优化生成模型	比较 backprop-through-reward 与 policy gradient
RLAIF-V	视觉语言反馈驱动的对齐	用 AI feedback 优化多模态生成/理解
ImageReward	图像偏好奖励模型	给图像生成 RL 提供 reward signal
VideoAlign	视频生成的人类反馈对齐	看视频 reward、DPO/RL、reject sampling 如何组合

常见坑

奖励模型被利用：模型可能学会生成某些高分纹理、构图或关键词风格，而不是真的更符合人类偏好。
只看平均 reward：必须看图像样本，否则很容易奖励上涨、质量下降。
prompt 覆盖太窄：在小 prompt 集上优化过头，会损害泛化和多样性。
安全和美学冲突：多目标 reward 需要记录每个子分数，不能只看加权总分。

评测基准和项目

LLM 时代做 RL，评测往往比训练更容易出问题。一个方向至少要同时看最终成功率、过程质量、格式约束、reward hacking、长度偏置、数据泄漏和多次采样稳定性。下面这些基准可以作为复现项目的验收入口。

评测不要只问“分数有没有涨”，还要问“涨在哪里、代价是什么、有没有破坏别的能力”。一个合格的复现实验至少应该包含：固定 dev set、未见过的 test set、训练前后对比、多次采样均值和方差、badcase 分类、长度统计、调用成本统计。Agentic/VLM/GUI 任务还应该保存完整轨迹，方便回放。

验收清单

最终指标：准确率、通过率、任务成功率、偏好胜率。
过程指标：工具调用次数、无效动作比例、重复搜索比例、引用可访问率、代码测试失败类型。
稳定性指标：不同随机种子、不同采样温度、不同模型尺寸下是否仍然有效。
安全指标：是否更容易胡编引用、越权调用工具、泄漏环境信息或破坏格式约束。
成本指标：平均 token、平均工具调用、平均时延、训练和评测的 GPU/CPU 开销。

方向	推荐基准/项目	主要评测信号
奖励模型	RewardBench	reward model 是否真的偏向更好回答
数学推理	Math-Verify、reasoning-gym	答案可验证性、格式、推理稳定性
代码推理	EvalPlus、LiveCodeBench	单元测试通过率、泛化到新题能力
软件工程	SWE-bench、SWE-Gym	patch 是否解决真实 issue
网页操作	WebArena、BrowserGym、Mind2Web	网页任务成功率、点击轨迹、状态变化
多模态网页	VisualWebArena	截图 grounding、DOM grounding、任务成功率
桌面/手机 GUI	OSWorld、AndroidWorld	真实应用中的长程操作成功率
工具调用	ToolBench、tau-bench	工具选择、参数正确性、业务流程完成率
机器人/VLA	LIBERO、ManiSkill、RoboCasa	任务成功率、泛化、碰撞和安全成本
图像生成 RL	Diffusers DDPO、ddpo-pytorch、AlignProp、RLAIF-V	偏好奖励、美学分、安全性、一致性

Badcase 模板

每个方向都建议维护一个 badcases.jsonl 或表格，至少记录：任务 id、输入、模型输出、reward、判分理由、失败类型、是否可复现、修复建议。对 LLM RL 来说，badcase 不是训练后的附属品，而是下一轮 reward 设计、数据过滤和环境修复的入口。

复现顺序建议

先用 0.5B 到 3B 小模型和数学、代码、格式校验等可验证任务观察 reward hacking、长度偏置和采样温度影响；再从 TRL/TinyZero/Open-R1 迁移到 verl/OpenRLHF 这类分布式框架。Agentic RL 优先选择搜索、网页、代码这类有明确成功率的任务；VLM RL 优先选择图文答案、定位、OCR、GUI 点击这类可判分任务；世界模型和具身方向先跑通 DreamerV3/TD-MPC2，再叠加视觉和真实机器人复杂度。

一条稳妥路线

第 1 周：规则奖励任务
用 TRL 或 TinyZero 跑一个小型可验证任务，例如 Countdown、格式化 JSON、简单数学。目标是理解 rollout、reward、advantage、KL、长度偏置和日志保存。
第 2 周：偏好优化和后训练对比
用同一个小模型做 SFT、DPO/KTO、PPO/GRPO 对比。不要换太多变量，只看不同训练方式对同一批 prompt 的影响。
第 3 周：推理 RLVR
引入 Math-Verify、reasoning-gym 或代码单测，让 reward 从“格式正确”升级到“答案可验证”。重点观察 reward sparsity 和 verifier 漏洞。
第 4 周：工具调用或 Deep Research
封装一个小型搜索/阅读环境，记录完整 trajectory。先做离线轨迹回放，再做 online rollout。
第 5 周：VLM 或 GUI
选择一个视觉问答、bbox 定位或网页点击任务，加入可视化 badcase。重点检查坐标系、截图状态和 reward 可解释性。
第 6 周以后：分布式和工业框架
再进入 verl、OpenRLHF、AReaL、SkyRL 这类框架。此时你已经知道自己需要什么 reward、什么日志和什么评测，不会被工程复杂度牵着走。

怎么判断可以升级难度？

当一个任务满足三点，就可以进入下一层：第一，固定评测集上训练前后差异稳定；第二，badcase 能被清楚分类；第三，reward 上升时人工抽检质量也上升。否则不要急着换更大的模型或更复杂的环境，先修 reward、数据和日志。

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

附录 D：学习资料与复现项目推荐 ​

学习资料推荐 ​

复现项目推荐 ​

复现路线速查 ​

强化学习方向速览 ​

非 LLM 时代：固定环境、仿真与经典算法 ​

环境与算法库 ​

推荐复现阶梯 ​

进阶方向与练习建议 ​

Unity ML-Agents 入门 ​

经典里程碑项目参考 ​

经典/棋盘游戏 ​

Atari 系列 ​

即时战略 / MOBA ​

FPS / 3D 游戏 ​

体育/竞速/其他 ​

多智能体/综合 ​

LLM 时代：后训练、推理、Agentic、VLM 与世界模型 ​

现代与经典资源速查 ​

LLM 后训练 ​

复现目标 ​

选型建议 ​

常见坑 ​

LLM 推理 ​

复现目标 ​

项目拆法 ​

常见坑 ​

Deep Research RL ​

复现目标 ​

观察重点 ​

常见坑 ​

Agentic RL 与工具调用 ​

复现目标 ​

工程拆分 ​

常见坑 ​

GUI 与 Computer Use ​

复现目标 ​

常见坑 ​

VLM ​

复现目标 ​

训练观察 ​

常见坑 ​

世界模型与模拟器 ​

复现目标 ​

和 LLM Agent 的关系 ​

常见坑 ​

生成模型 RL ​

复现目标 ​

常见坑 ​

评测基准和项目 ​

验收清单 ​

Badcase 模板 ​

复现顺序建议 ​

一条稳妥路线 ​

怎么判断可以升级难度？ ​

附录 D：学习资料与复现项目推荐

学习资料推荐

复现项目推荐

复现路线速查

强化学习方向速览

非 LLM 时代：固定环境、仿真与经典算法

环境与算法库

推荐复现阶梯

进阶方向与练习建议

Unity ML-Agents 入门

经典里程碑项目参考

经典/棋盘游戏

Atari 系列

即时战略 / MOBA

FPS / 3D 游戏

体育/竞速/其他

多智能体/综合

LLM 时代：后训练、推理、Agentic、VLM 与世界模型

现代与经典资源速查

LLM 后训练

复现目标

选型建议

常见坑

LLM 推理

复现目标

项目拆法

常见坑

Deep Research RL

复现目标

观察重点

常见坑

Agentic RL 与工具调用

复现目标

工程拆分

常见坑

GUI 与 Computer Use

复现目标

常见坑

VLM

复现目标

训练观察

常见坑

世界模型与模拟器

复现目标

和 LLM Agent 的关系

常见坑

生成模型 RL

复现目标

常见坑

评测基准和项目

验收清单

Badcase 模板

复现顺序建议

一条稳妥路线

怎么判断可以升级难度？