第 12 章：未来趋势——从 CartPole 到前沿探索

从第 1 章的 CartPole 到第 9 章的 GRPO，我们走过了现代 RL 的核心旅程。你学会了 Q-Learning 和 DQN 如何让智能体从试错中学习，策略梯度如何直接优化行为，PPO 如何稳定地训练大模型，GRPO 如何用可验证奖励激发推理能力。第 10 章的 Agentic RL 把 RL 从"单轮对话"推进到了"多轮工具交互"。

但 RL 的故事远没有结束。2025-2026 年，这个领域正在经历几场深刻的变化：RL 开始走进物理世界——具身智能让机器人学会感知和行动；RL 不再只是"训练时优化"——它开始渗透到"推理时搜索"；RL 不再只是单智能体——多智能体协作和自博弈正在成为前沿方向。这些变化不只是技术迭代，而是对"RL 能做什么"这个根本问题的重新定义。

本章不追求覆盖所有前沿——那是不可能的。我们挑选了几个最具代表性的方向，每个方向都和前面章节学过的概念紧密相连。你将看到：前面打下的理论基础，在这些前沿方向中反复出现。

小节	核心问题
具身智能	RL 走进物理世界——机器人感知、决策与行动
Model-Based RL	世界模型如何帮助智能体规划和想象训练？
自博弈与自我进化	模型能否通过自我博弈持续进化？
LLM 多智能体强化学习	多智能体、基于模型 RL 与协作博弈
离线强化学习	不能在线试错时，如何从历史数据中学习策略？
RL Scaling 展望	RL 训练的天花板在哪？Test-time Scaling？

1. CartPole 倒立摆

2. DPO 偏好微调

3. MDP 与价值函数

4. Q-Learning 与 DQN

5. 策略梯度与 REINFORCE

6. Actor-Critic

7. PPO

8. RLHF 全流程

9. 后训练对齐

10. Agentic RL

11. VLM 强化学习

12. 未来趋势

B. RL 工程实践

E. 强化学习的数学基础

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

第 12 章：未来趋势——从 CartPole 到前沿探索

E.1 数学对象与线性代数

E.2 概率、期望与随机估计

E.3 微积分与优化

E.4 信息论与分布距离

第 12 章：未来趋势——从 CartPole 到前沿探索 ​

第 12 章：未来趋势——从 CartPole 到前沿探索