12.7 Agentic RL 延伸阅读索引
本章前面的六节覆盖了 Agentic RL 的核心理论、工程实践和工业实战。但 Agentic RL 的技术版图远不止于此——2025–2026 年,RL 正在被应用于越来越多的智能体场景:从角色扮演到创意写作,从科学发现到情感对话。本页按主题整理了超过 120 篇代表性工作,方便你按兴趣深入探索。
使用建议
每个主题按"综述 → 方法 → 系统"的顺序排列。建议先读综述类工作建立全局认知,再按需深入具体方向。标记为 [开源] 的工作附有 GitHub 链接,可以直接动手实验。
综述与理论基石
Agentic RL 的理论基础正在快速成型。本节收录的综述从不同角度梳理了这一新兴领域的全貌:有的聚焦训练配方与工程实践,有的将 LLM 重新定义为自主决策者并围绕六大核心能力综述了 500+ 篇工作,还有的专门为深度研究系统或智能体搜索任务撰写 RL 基础。如果你想快速建立对 Agentic RL 全局版图的认知,从这里开始。
| 工作名称 | 核心亮点 | 链接 |
|---|---|---|
| Adaptation of Agentic AI: A Survey | 综述 AI 智能体的后训练、记忆与技能适应技术 | arXiv |
| Training Recipes for Agentic RL in LLMs | 系统整理 Agentic RL 的"训练配方",包括环境、采样策略等 | TechRxiv |
| The Landscape of Agentic RL for LLMs: A Survey | 将 LLM 视为自主决策者,围绕六大核心能力综述超过 500 篇工作 | arXiv |
| A Comprehensive Survey on RL-based Agentic Search | 综述强化学习在智能体搜索任务中的应用 | arXiv |
| Meta-Thinking in LLMs via Multi-Agent RL | 探讨如何通过多智能体 RL 实现 LLM 的元思考能力 | arXiv |
| Reinforcement Learning Foundations for Deep Research Systems | 首篇专为深度研究系统 RL 基础撰写的综述 | arXiv |
深度研究与信息整合
深度研究智能体(Deep Research Agent)是 Agentic RL 最热门的应用方向之一。与简单的搜索-总结不同,它需要模型在真实网络环境中进行多轮、长程的信息搜索、交叉验证和综合分析。本节收录了从端到端 RL 框架到引用感知奖励的多种方案,覆盖了从 7B 小模型到 30B 大模型的不同规模。
| 工作名称 | 核心亮点 | 链接 |
|---|---|---|
| DeepResearcher [开源] | 端到端 RL 框架,在真实网络环境中进行搜索交互 | GitHub |
| Tongyi DeepResearch [开源] | 阿里通义实验室的 30.5B MoE 模型(3.3B 激活),采用"Agentic Mid-training + Post-training"两阶段训练流程 | arXiv |
| IntentRL | 训练智能体在开始长程研究前,主动澄清用户模糊意图 | arXiv |
| DR Tulu / RLER | 采用演化评分标准 (RLER) 的 RL 训练方案,提升长文研究能力 | AllenAI Blog |
| EigentSearch-Q+ | 引入结构化推理工具 (Q+),增强深度研究智能体的能力 | arXiv |
| Fathom-DeepResearch | 由 Search 和 Reason 两个 4B 模型组成的多智能体系统,生成 DUETQA 数据集 | arXiv |
| PokeeResearch-7B [开源] | 7B 参数量的开源深度研究智能体 | HuggingFace |
| SFR-DeepResearch | Salesforce 出品,专注于自主单智能体的持续 RL 训练 | arXiv |
| CaRR / C-GRPO [开源] | 引入引用感知的评分奖励,遏制模型产生幻觉 | GitHub |
强化推理与代码生成
RLVR(Reinforcement Learning from Verifiable Rewards)天然适配代码生成任务——代码是否能通过测试、是否能正确执行,都是客观可验证的信号。本节的工作围绕这一核心优势展开:有的将代码执行反馈直接整合进多轮训练,有的探索无真值监督下的 RLVR,还有的发现模型会自发学会生成并执行代码,并揭示了其中的 Scaling Law。
| 工作名称 | 核心亮点 | 链接 |
|---|---|---|
| rStar2-Agent [开源] | 基于 GRPO 的 14B Agent RL 算法,在数学推理上展现强竞争力 | arXiv |
| Murphy | 多轮 RLVR 框架,将代码执行反馈直接整合进训练 | arXiv |
| ZeroCoder | 探索在没有真值监督的情况下,通过 RLVR 提升代码生成能力 | arXiv |
| SARL | 通过奖励推理拓扑结构,实现无标签的推理能力提升 | arXiv |
| Agentic RL Scaling Law / ZeroTIR [开源] | 发现模型能自发学会生成并执行代码,并揭示其训练规律 | GitHub |
| Agnostics | 语言无关的代码 RL 训练框架 | Project |
| ReLook | 基于视觉反馈(渲染截图)的 RL 来优化网页前端代码生成 | arXiv |
| Agentic Code Reasoning | 通过半形式化推理,为 RL 提供低成本、无风险的奖励信号 | arXiv |
| Code-Space Response Oracles | 使用 LLM 作为代码生成预言机,替代传统 RL 预言机 | arXiv |
GUI 与网页智能体
GUI 智能体让 AI 能像人一样操作图形界面——点击按钮、填写表单、在网页上导航。RL 在这里的价值在于:SFT 只能教会模型"模仿点击",而 RL 能让模型学会"根据目标选择最优操作路径"。本节覆盖了从网页到移动端、从 3B 小模型到持续学习框架的多种方案。
| 工作名称 | 核心亮点 | 链接 |
|---|---|---|
| WebAgent-R1 [开源] | 端到端多轮 RL 框架,将 3B 模型成功率从 6.1% 提升至 33.9% | GitHub |
| Web-Shepherd [开源] | 首个网页导航专用步骤级奖励模型,能评估每一步交互 | GitHub |
| CRAFT-GUI | 结合课程学习与 GRPO,提升 GUI 智能体性能 | arXiv |
| MobileRL [开源] | 移动端在线 RL 框架,使用 ADAGRPO 算法 | GitHub |
| Co-EPG | 通过协同进化框架,同时优化 GUI 智能体的规划与接地能力 | AAAI |
| Continual GUI Agents | 定义并解决 GUI 智能体在持续变化环境下的学习问题 | arXiv |
| WebFactory | 全自动闭环 RL 流程,将 LLM 的智能"压缩"到高效的 GUI 智能体中 | OpenReview |
| ZeroGUI | 零人工成本的在线 GUI 智能体学习框架 | arXiv |
| UI-S1 | 结合离线与在线数据优势的半在线 RL 训练方法 | arXiv |
| Generalization in Online RL for Mobile Agents | 研究移动智能体在线 RL 中的泛化问题,证明 RL 能超越 SFT 基线 | OpenReview |
具身智能与机器人
当 RL 从数字世界走向物理世界,智能体面对的不再是文本或图像,而是连续的控制信号和不确定的物理环境。本节的工作探索了如何让 LLM 直接参与机器人推理与控制:有的用 RL 优化空间推理过程使 7B 模型超越 GPT-4o,有的在像素级世界模型中训练出自我纠错能力,还有的研究跨形态迁移和持续学习中的"认知身份"保持问题。
| 工作名称 | 核心亮点 | 链接 |
|---|---|---|
| Robot-R1 | 用 RL 直接优化机器人的推理过程,7B 模型空间推理能力超越 GPT-4o | arXiv |
| WMPO [开源] | 在像素级视觉世界模型中进行 RL 训练,涌现出自我纠错能力 | GitHub |
| ViVa | 使用预训练视频生成模型作为价值函数估计器,评估状态价值 | arXiv |
| RoboAgent | 通过组合基础能力,实现具身任务规划 | arXiv |
| Cross-Embodiment Offline RL | 通过形态学分组策略,实现跨不同形态机器人的离线 RL | arXiv |
| Sensory-Motor Control with LLMs | 通过迭代策略精炼,使 LLM 能直接生成连续控制策略 | arXiv |
| RM-RL | 提出"榜样模型"RL,用于实现精准的机器人操作 | arXiv |
| Learning Without Losing Identity | 研究具身智能体在持续学习新能力时,如何保持"认知身份"的稳定 | arXiv |
多智能体系统与协作
多个智能体协作的难度远超单智能体——当你学新策略时队友也在变,环境是非平稳的;团队成功了功劳归谁,失败了责任在谁。本节的工作从多个角度应对这些挑战:将 GRPO 扩展至多智能体场景、通过知识蒸馏实现去中心化协调、用数字孪生解决上下文漂移问题,以及端到端联合优化采样与训练的大规模 MARL 框架。
| 工作名称 | 核心亮点 | 链接 |
|---|---|---|
| MAPoRL | 多智能体协作训练新范式 | arXiv |
| M-GRPO | 将 GRPO 算法扩展至多智能体场景 | arXiv |
| SAGE | 闭环自进化多智能体 RL 框架 | arXiv |
| MARTI [开源] | 多智能体辩论框架 | GitHub |
| KD-MARL | 通过知识蒸馏,将集中式专家的协调行为迁移到轻量级去中心化智能体中 | arXiv |
| Value-Guidance MeanFlow | 用于离线多智能体 RL 的价值引导流模型 | arXiv |
| FlexMARL | 首个端到端训练框架,联合优化采样、训练及其编排,用于大规模 LLM-based MARL | arXiv |
| TwinLoop | 提出仿真在环数字孪生框架,解决上下文变化导致的多智能体性能下降问题 | arXiv |
| Equivariant Multi-agent RL | 用于多模态车路协同系统的等变多智能体 RL | arXiv |
世界模型与基于模型的 RL
无模型 RL 的核心瓶颈是样本效率——智能体必须通过大量试错才能学习。世界模型提供了一条绕过瓶颈的路径:先学会"脑内模拟环境",再在想象中生成训练数据。本节收录了从扩散世界模型到对象中心表征的多种方案,核心思路都是让策略模型与世界模型交互,在"想象"中完成多步规划与训练。
| 工作名称 | 核心亮点 | 链接 |
|---|---|---|
| GIRL | 通过信息论幻觉控制,实现生成式想象 RL | arXiv |
| World4RL | 扩散世界模型,用于机器人操作的策略精炼 | arXiv |
| Dreamer-CDP | 无需重建原始像素观察的 Dreamer 变体 | Project |
| RLVR-World | 使用 RLVR 直接优化世界模型 | arXiv |
| OC-STORM | 利用对象中心表征增强世界模型,实现样本高效的 RL | arXiv |
| Imagine-then-Plan (ITP) | 让策略模型与世界模型交互,在"想象"中生成多步轨迹 | arXiv |
角色扮演与人格模拟
角色扮演不只是"假装是某个人"——它要求模型在长对话中保持一致的人格特征、思维方式和行为模式。RL 在这里的价值在于:通过可验证的角色意识奖励,强化模型对"我是谁"的持续感知。本节的工作从双层思考框架(区分角色视角和模型视角)到多角色自博弈,探索了如何让 AI 真正"入戏"并保持角色一致性。
| 工作名称 | 核心亮点 | 链接 |
|---|---|---|
| HER (Human-like Reasoning) | 提出双层思考框架,区分角色的第一人称思维和 LLM 的第三人称思维(注:非经典 Hindsight Experience Replay) | arXiv |
| OMAR | 通过多轮自博弈 RL,培养 AI 的社交智能 | arXiv |
| R4 | 赋予奖励模型和角色扮演智能体推理与检索能力 | ICLR Poster |
| VeriRole | 通过可验证的提示引导 RL 提升角色意识 | OpenReview |
| SPELL | 多角色自博弈 RL 框架,用于长上下文推理 | arXiv |
| Consistently Simulating Human Personas | 提出评估和改进 LLM 角色一致性的统一框架 | OpenReview |
| CPO | 针对角色扮演对话中奖励模糊问题的比较策略优化 | arXiv |
| RAIDEN-R1 | 提出可验证的角色意识奖励 (VRAR),强化模型对自身角色的感知 | arXiv |
创意与长文写作
创意写作对 RL 提出了独特挑战:奖励不像代码执行那样客观可验证,"好"的写作是主观的、多维度的。本节的工作探索了如何设计能捕捉创意质量的奖励信号——从生成式奖励模型对故事偏好进行多维推理,到通过交替 RL 优化基于评分标准的奖励模型,再到用 RLAIF 比较不同奖励策略以激发小模型的创意能力。
| 工作名称 | 核心亮点 | 链接 |
|---|---|---|
| Writer-R1 | 记忆增强的重放策略优化(Memory-augmented Replay Policy Optimization) | arXiv |
| R2-Write | 对开放域写作进行系统性研究,提出反思与修正框架 | arXiv |
| DPWriter | 通过多样化规划分支,解决 RL 训练中输出多样性降低的问题 | arXiv |
| RLMR | 首次在在线 RL 训练中结合主观偏好与客观验证 | arXiv |
| Rewarding Creativity | 开发生成式奖励模型,对故事偏好进行多维分析和显式推理 | arXiv |
| Alternating RL for Rubric-Based Reward Modeling | 通过交替 RL 优化基于评分标准的奖励模型,在多个写作基准上达到 SOTA | arXiv |
| Igniting Creative Writing in SLMs | 在 RLAIF 框架下比较两种奖励策略,激发 7B 小模型的创意写作 | ACL Anthology |
情感智能与共情对话
共情不只是"理解情绪"——它需要在恰当的时机表达恰当的回应,同时保持对话的逻辑连贯。RL 在这里的价值是让模型学会平衡"情感支持"与"认知推理"。本节的工作从可验证情感奖励到基于心理学的共情奖励建模,探索了如何为 RL 提供更扎实的奖励信号。
| 工作名称 | 核心亮点 | 链接 |
|---|---|---|
| RLVER | 利用可验证情感奖励训练 LLM 的高阶共情能力 | arXiv |
| CARE | 认知推理增强的 RL,提升情感支持对话的逻辑性与支持质量 | arXiv |
| COMPEER | 统一过程-结果 RL,实现结构化共情推理 | arXiv |
| DialogXpert | 基于在线价值 RL 的对话规划,在谈判、情感支持等任务上成功率超 94% | arXiv |
| EILS | 受生物情绪启发的内稳态学习信号框架,用于构建自适应自主智能体 | arXiv |
| SAGE (Steering Dialog Generation) | 使用隐变量控制对话生成的长期行为,用于构建情感智能聊天机器人 | arXiv |
| PERM | 基于心理学的共情奖励建模,为 RL 提供更扎实的奖励信号 | arXiv |
艺术与视觉创作
RL 进入艺术领域是一个有趣的跨界——它将"审美判断"建模为可优化的奖励信号。本节的工作覆盖了从图像生成优化到分层绘画、从个性化手绘到艺术风格学习的多种应用。核心思路包括:协调多个专家模型迭代优化图像生成、通过逆 RL 从笔触数据中学习艺术家风格,以及用分层 RL 实现高层规划与低层绘制的分离。
| 工作名称 | 核心亮点 | 链接 |
|---|---|---|
| Image-POSER | 反思式 RL 框架,协调多个专家模型,根据复杂文本提示迭代优化图像生成 | arXiv |
| HRL-Painter | 基于分层 RL 的绘画方法,高层规划区域,低层执行绘制 | Neurocomputing |
| PersonaSketch-RL | 基于 RL 的策略,用于优化个性化手绘插图生成 | ScienceDirect |
| RMLer | 将跨类别概念融合建模为 RL 问题,用于合成新颖物体 | arXiv |
| Sequential Art Creation | 深度 RL 框架,用于创作视觉形式上与输入不同的序列艺术作品 | UTA Thesis |
| MVAEx-RL | 基于 RL 的多模态艺术元素提取和动态适应策略,用于环境设计 | Springer |
| DailyArt | 将关节估计问题建模为合成介导的推理问题,从单张静态图像中推断动力学 | arXiv |
RL 训练基础设施与算法创新
Agentic RL 的工程复杂度远超标准 LLM RL——你需要同时管理 GPU 上的模型训练、CPU 上的工具执行和网络上的环境交互。本节聚焦于支撑这些复杂训练流程的基础设施和算法创新:从全异步训练系统到可扩展的合成学习环境,从检索增强的策略优化到将推理计算转化为训练信号的新范式。
| 工作名称 | 核心亮点 | 链接 |
|---|---|---|
| AReaL v1.0 [开源] | 蚂蚁与清华联合开源,实现"Agent 一键接入 RL 训练" | GitHub |
| RollArt / RollArc | 通过解耦基础设施 (RollArc) 最大化多任务 Agentic RL 的训练吞吐量 | arXiv |
| SparrowRL | 在商用网络上实现无损稀疏增量同步的高性能 RL 训练系统 | arXiv |
| Laminar | 基于全解耦架构的可扩展、鲁棒的异步 RL 后训练系统 | arXiv |
| SCALER | 合成可扩展的自适应学习环境,为 RL 训练提供无限可验证的推理环境 | arXiv |
| L-Zero (L0) | 低成本、可扩展的端到端通用智能体训练流程 | arXiv |
| Compute as Teacher (CaT) | 将推理时的并行采样计算转化为 RL 训练的监督信号 | arXiv |
| RAPO | 检索增强策略优化,在训练期间显式扩展智能体的探索空间 | arXiv |
| LLM-Explorer [开源] | 清华出品,可增强各种 RL 算法探索能力的插件 | GitHub |
科学发现与工业应用
RL 正在走出实验室,进入化学、材料科学、医学和工业制造等真实应用场景。本节的工作将科学问题建模为 MDP:先导化合物优化变成在合成约束下的搜索问题,材料设计变成利用形成能反馈的优化问题,工业异常检测变成了数据合成的策略学习问题。这些应用展示了 RL 作为"通用决策优化器"的潜力。
| 工作名称 | 核心亮点 | 链接 |
|---|---|---|
| MolReAct | 将先导化合物优化建模为 MDP,用 RL 在合成约束下进行高效搜索 | arXiv |
| PolyRL | 使用 RL 引导的多目标聚合物生成与发现 | RSC |
| Helix | 面向开放式科学问题求解的分层进化 RL 框架 | arXiv |
| RLFEF | 利用形成能反馈的 RL 来微调材料扩散模型,提升晶体稳定性 | dblp |
| AnomalyAgent | 工业异常数据合成智能体,通过 RL 优化生成高真实感的异常样本 | arXiv |
| Autonomous Adaptive Solver Selection | 使用约束 RL 框架,在化学积分过程中自主选择求解器 | arXiv |
| PPO-based Surface Reconstruction | 基于 PPO 的深度 RL 框架,用于 AgPd 合金催化剂的表面重构 | AIP PDF |
| MedVR | 针对医学 VQA,提出熵引导视觉重定位(EVR)和共识驱动信用分配两种 RL 机制 | arXiv |
提示: 以上工作均为 2025–2026 年发表或预印的论文/项目。部分 arXiv 论文可能已更新版本,建议通过论文标题在 arxiv.org 或 Semantic Scholar 搜索获取最新版本。