第 12 章:未来趋势——从 CartPole 到前沿探索
从第 1 章的 CartPole 到第 9 章的 GRPO,我们走过了现代 RL 的核心旅程。你学会了 Q-Learning 和 DQN 如何让智能体从试错中学习,策略梯度如何直接优化行为,PPO 如何稳定地训练大模型,GRPO 如何用可验证奖励激发推理能力。第 10 章的 Agentic RL 把 RL 从"单轮对话"推进到了"多轮工具交互"。
但 RL 的故事远没有结束。2025-2026 年,这个领域正在经历几场深刻的变化:RL 开始走进物理世界——具身智能让机器人学会感知和行动;RL 不再只是"训练时优化"——它开始渗透到"推理时搜索";RL 不再只是单智能体——多智能体协作和自博弈正在成为前沿方向。这些变化不只是技术迭代,而是对"RL 能做什么"这个根本问题的重新定义。
本章不追求覆盖所有前沿——那是不可能的。我们挑选了几个最具代表性的方向,每个方向都和前面章节学过的概念紧密相连。你将看到:前面打下的理论基础,在这些前沿方向中反复出现。
| 小节 | 核心问题 |
|---|---|
| 具身智能 | RL 走进物理世界——机器人感知、决策与行动 |
| Model-Based RL | 世界模型如何帮助智能体规划和想象训练? |
| 自博弈与自我进化 | 模型能否通过自我博弈持续进化? |
| LLM 多智能体强化学习 | 多智能体、基于模型 RL 与协作博弈 |
| 离线强化学习 | 不能在线试错时,如何从历史数据中学习策略? |
| RL Scaling 展望 | RL 训练的天花板在哪?Test-time Scaling? |
准备好了吗?让我们从 RL 走进物理世界的第一步开始——具身智能。