Agentic RL: 自我进化的大模型新范式 (Part I)
大模型的发展正在发生一次深刻的结构性转变。从最初问答式的聊天助手,逐渐演变为能够主动检索信息、调用工具,甚至在复杂环境中自主完成多步任务的 Agentic 智能体模型。在这场演进中,Agentic RL(智能体强化学习) 正在成为底层模型优化的核心引擎。它将大模型从一个只能输出文本的生成器,打造成了一个能够在环境中行动、观察、纠错、积累轨迹,并持续自我改进的动态学习系统。
1. 什么是 Agentic Models
要理解 Agentic RL,首先要了解什么是 Agentic Models。它与普通聊天模型的根本差异在于:它不只是在生成文本,而是在一个环境中执行动作,观察反馈,并在反复多轮之后完成任务。 Agentic Models 可以调用浏览器搜索、写代码并在沙箱中解释执行、查询 SQL 数据库、操作 GUI 界面,甚至向真实的科学仿真器提交实验参数,然后根据环境反馈的结果继续下一步行动。
我们可以用几个核心概念来描述这个过程:
- Problem(任务):模型要解决的终极目标,比如修复一个 Bug、预测一支股票,或优化一种分子结构。
- Action(动作):模型执行的具体操作,如调用 API、运行代码。
- Observation(观察):环境对动作的真实反馈,如报错日志、网页内容、仿真分数。
- Turn(轮次):一次完整的 Action 与 Observation 闭环。
- Trajectory(轨迹):从任务开始到最终成功(或失败)的完整多步探索路径。
- Reward(奖励):环境、验证器或规则系统对这条轨迹或其中某一步的评价。
传统 LLM 更像是一个静态的知识压缩器 :用户给出一个 Prompt,模型单次生成答案。而 Agentic Model 则是一个 带有外部知识记忆和行动力的策略模型 :它可以把复杂任务拆解,在外部试错,把反馈纳入上下文,并动态调整策略。
普通 LLM 与 Agentic Model 的核心差异
| 维度 | 普通 LLM | Agentic Model |
|---|---|---|
| 交互方式 | 单轮或短对话 | 多步行动与观察闭环(Action-Observation Loop)[1] |
| 主要能力 | 生成、总结、问答 | 规划、工具调用、纠错、环境探索 |
| 反馈来源 | 用户主观打分或偏好(RLHF) | 工具结果、代码报错、仿真器分数、真实世界验证 |
| 训练难点 | 答案的质量与人类价值观对齐 | 长程信用分配(Credit Assignment)与高密度环境信号的获取 |
当模型开始执行动作,训练的核心问题就从评估生成文本质量的好坏,变成了衡量系统是否最终能够完成任务,以及每一步行动是否让系统更接近目标。这正是强化学习(RL)必须进场的根本原因。
2. 为什么 Agentic Models 需要强化学习?
一直以来,在预训练之后我们习惯用监督微调(SFT)来调优模型。但把 SFT 用在 Agent 上,很快就会遇到天花板。
SFT 的本质是模仿。它依赖于高质量的人类专家示范轨迹。然而,真实世界中 Agent 面临的任务路径空间极其庞大:
- 工具调用对格式和状态依赖极强,少量的成功示范根本无法覆盖海量的异常分支和报错场景。
- 对于复杂的软件工程、数学推导或科学发现(如蛋白质或晶体结构预测),真正的专家轨迹稀缺且昂贵。
- 模型一旦部署,环境规则可能会变化,静态的 SFT 数据集会迅速过期。
强化学习(RL)的切入点恰恰在此:它不要求给定静态的最优轨迹,而只要求环境能对结果给出评价。对于代码生成、SQL、定理证明等存在客观验证机制的场景,模型完全可以通过在环境中的海量探索试错来实现自我进化。
但在 Agent 场景下落地 RL,面临着三个极其棘手的挑战:
- Sparse Reward(稀疏奖励):很多任务只有在最后第 50 步才知道是成功还是失败,前 49 步全在摸索,没有明确的对错信号。
- Credit Assignment(信用分配):如果最终任务失败了,究竟是第 3 步的数据查错了,还是第 40 步的代码写的有问题?
- Environment Cost(环境成本):真实环境的反馈可能非常慢且昂贵(例如执行一次密度泛函理论 DFT 计算、跑一次真实的生物湿实验)。
Agentic RL 的算法演进,本质上就是在不断尝试解决以上三大难题:把稀疏、昂贵、嘈杂的环境反馈,转化为密集、稳定、可扩展的训练信号。
3. Reward:Agentic RL 的迭代核心
既然要更好获取环境反馈,Reward(奖励)的设计就是整套系统的核心要点。
常见的 Reward 分为几种:人类反馈(精准但昂贵)、LLM/AI 裁判(成本相对低但易幻觉)。而在 Agent 领域,更加可靠,易于 scale up,目前算法迭代也最快的是 Verifiable Reward(可验证奖励)。
3.1 Verifiable Reward
在很多任务中,只要任务结果能被客观验证,模型就能打破人类标注的瓶颈,开启数据飞轮:
- 数学:最终答案是否与 Ground Truth 匹配(如 DeepSeekMath [2] 的实践)。
- 代码:编译,单元测试通过,并能高性能完成既定任务。
- 游戏:是否过关,得分是否上升。
Verifiable Reward 是最直接的 Outcome Reward(结果奖励)。但这还不够:如果一个任务有几十步,只在最后给出 +1 或 -1 的反馈,模型的学习信号非常稀疏,也无法定位具体的问题,学习效率会极其低下。
3.2 从 Outcome 到 Process Reward
为了解决长程任务的信号稀疏问题,PRM(Process Reward Model,过程奖励模型) 应运而生(参考 OpenAI 的经典论文 Let's Verify Step by Step [3])。
PRM 不再只看最终结果,而是深入轨迹内部,把每一步的 Action 和 Observation 作为上下文,评估这一步是否实质性地推动了任务进展。 直观来看,最终的奖励可以表示为:
在工具调用的场景中,命令行返回的结果、编译器的报错,天然就构成了极具价值的下一步状态信号(Next-State Signal)。PRM 的优势,不在于它有多聪明,而在于它把黑箱般的长轨迹,拆解成了局部可学习的密集反馈。
你可能会问,如果模型自己都做不好,凭什么指望 Judge/PRM 判得准? 答案藏在计算复杂性理论中:验证永远比生成更容易。就像验证一个数独的解是否正确(P 问题),远比凭空填满一个数独(NP 问题)要简单。执行任务的 Policy Model 需要绞尽脑汁规划路径、调用工具,而 Judge 只需要看着当前的上下文和工具反馈,给出一个客观的评分。
3.3 复杂场景的 Multi-Tier Verifier
在复杂的工业、科学和金融等场景中,验证成本天然存在巨大的差异:一次 RDKit 分子合法性检查只需毫秒级,一次 AlphaFold 折叠或者时序信号分析是分钟级,而一次湿实验(Wet Lab)或者等待真实市场反馈可能需要数天。
为了在“验证保真度”和“数据生产成本”之间达到最优平衡,本文提出引入Multi-Tier Verification(多层验证阶梯):
| 验证层级 | 代表工具示例 | 成本 | 核心作用 |
|---|---|---|---|
| Fast-tier (快速层) | 知识图谱对齐、数据 Schema 校验、RDKit 分子语法 | 极低 | 毫秒/秒级过滤低级错误与事实幻觉 |
| Simulation-tier (仿真层) | 机器学习力场 (MLFF)、AlphaFold [4] 结构预测、时序信号预测 | 中等 | 提供高保真的近似物理代理反馈 |
| High-fidelity tier (高精层) | 密度泛函理论 (DFT) 计算、分子动力学 (MD) 模拟 | 较高 | 提供严谨、强约束的高质量物理计算验证 |
| Lab-tier (现实层) | 湿实验 (Wet Lab)、专家人工反馈、真实交易市场 | 高 | 提供最终的真实世界真理裁决 |
在系统探索时,模型生成的初步假设会先走低成本的 Fast-tier;只有当验证通过、或者是遇到高价值且高不确定的候选解时,系统才将其调度到昂贵的 Simulation-tier 或 Lab-tier。这把“验证器强度”和“数据生产成本”变成了一个可编排的资源调度问题。
4. RL 算法进化史:从稀疏标量到密集向量信号
随着 Reward 信号的不断完善,底层的 RL 算法也在持续演进。PPO、GRPO、PRM、OPD 等等算法都是在工程复杂度、计算资源和信号质量之间不断寻找更优解的产物。
4.1 PPO 与 GRPO:Actor-Critic 的经典与革新
PPO(Proximal Policy Optimization) 是大模型 RLHF 时代最主流的算法(参考 OpenAI 的经典文献 PPO [5])。PPO 的核心特点在于,它只需进行单次试错(Roll-out),Critic(价值模型)就会为轨迹中的每一步(Action 或 Token)给出一个客观的基准预估分。系统通过计算该动作实际拿到的 Reward 相对于 Critic 预估分的优势(Advantage) 来指引方向。模型训练的过程,就是不断去提升这些具备优势的动作出现的概率。这种机制能提供非常细致的 Token 级反馈,并且在 KL 散度约束下保证了极高的稳定性,但成本也很高昂:它必须额外维护一个与主模型同等规模的 Critic 模型,这对训练显存和集群通信是个沉重的负担。
为了降低训练 LLM 的系统开销,DeepSeek 等团队开发了 GRPO(Group Relative Policy Optimization) [2:1] 算法。GRPO 的突破创新在于,对于同一个 prompt,模型批量生成多条轨迹(比如 16 条),然后通过对比这组轨迹的 Reward 高低,计算出局部的相对优势(Advantage)。它不再追问每一步的绝对得分,而是评估在当前这批尝试中,哪条路径相对更好,从而规避了对昂贵 critic model 的需求。在拥有强 Verifier 的数学和代码场景,GRPO 展现出了极高的性价比。
4.2 OPD:RL 与 SFT 的有机融合
无论是 PPO 还是 GRPO,本质上提供的都是标量奖励(Scalar Reward):告诉模型当前动作是好(+1)还是坏(-1)。但当模型犯错时,它往往不知道具体哪个 Token 写错了。
OPD(On-Policy Distillation,同策略蒸馏) 进一步提升了训练信号的质量。在 OPD 中,Student 模型先按自己的策略(On-Policy)生成探索轨迹,随后系统会引入强大的 Teacher 模型,在同一条轨迹上计算出 Token 级别的目标概率分布来引导学习。
以刚发布的 DeepSeek-V4 [6] 为例,为了融合多个专家的能力并解决传统标量估值方差过大的问题,它采用了多教师全词表蒸馏(Multi-Teacher Full-Vocabulary OPD):系统先分别训练出多个领域的专家模型(Teachers),然后在 Student 试错的轨迹上,直接计算并合并这些专家在整个词表(Full-Vocabulary)上的完整 Logit 分布,以此作为反向 KL 散度(Reverse KL loss)的优化目标。相比于传统的单 Token 优势估计,这种全词表的稠密概率分布有效降低了梯度方差,确保了极高的训练稳定性。
OPD 的突出优势在于:它既具备了 RL 的 On-Policy 特性(贴近当前模型真实的短板和环境分布),又享受了 SFT 般密集的 Token 级别方向性监督。模型不再是在盲目试错中碰运气,而是有一个严师手把手指出每一个具体错误并提供正确 Token 的修正方向。
4.3 Hindsight Supervision:从后见之明中学习
在 Agent 的交互中,我们经常遇到这种情况:模型跑完一段代码,终端弹出一长串 traceback 报错(例如:TypeError: expected string or bytes-like object)。传统的 RL 会直接给予 -1 惩罚。但 Hindsight Supervision(后见之明监督) 认为这是巨大的浪费(参考近期关于 OpenClaw-RL [7] 与 Agent 环境交互的研究,以及 Reflexion [8] 等自我反思机制)。
如果用 Theory of Slow Thinking [9](慢思考理论) 的视角来解释,这种事后学习的本质是在逼近最优的后验采样器(Posterior Sampler)。在面对复杂的开放式问题时,模型如果只根据问题本身去盲目探索,很难碰巧找到正确的推理路径;但一旦知晓了事后的结果(比如最终答案或具体的环境报错),系统就可以带着全局视角,逆向构建出有效连接问题与答案的桥梁思考(Bridge Thought)。
在工程实践中,我们把报错信息等事后反馈作为 Hint(提示) 喂给 Teacher 模型。借助这些后验信息,Teacher 不需要自身拥有很强的能力,也能够生成出真正有效的修正代码或推理路径,并去监督只能看到事前视角的 Student 模型。
这种将环境反馈中的 Directive Signal(指示性信号)直接转化为训练数据的方法,使得模型能快速学会在没有提示的情况下规避错误。
小结
回顾 Agentic RL 的一路演进:Reward 从只看终点的 Outcome,走向了逐步打分的 Process Reward;算法从 PPO 的标量反馈,走向了 OPD 的 Token 级监督;失败轨迹也不再被丢弃,而是通过 Hindsight 机制回收为训练数据。这些改进指向同一个方向——把稀疏、昂贵的环境信号,尽可能高效地转化为模型可学习的密集梯度。
在接下来的内容中,我们将从算法转向工程与落地:在科学发现和金融预测等场景中,这套范式如何实际运转?以及如何利用 Verl、SkyRL 等框架,构建可持续迭代的 Agent 训练系统?
参考文献
Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. "ReAct: Synergizing Reasoning and Acting in Language Models." ICLR (2023). ↩︎
Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Bi, X., et al. "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models." arXiv preprint arXiv:2402.03300 (2024). ↩︎ ↩︎
Lightman, H., Kosaraju, V., Burda, Y., Edwards, H., Baker, B., Lee, T., Leike, J., Schulman, J., Sutskever, I., & Cobbe, K. "Let's Verify Step by Step." arXiv preprint arXiv:2305.20050 (2023). ↩︎
Abramson, J., Adler, J., Dunger, J., Evans, R., Green, T., et al. "Accurate structure prediction of biomolecular interactions with AlphaFold 3." Nature (2024). ↩︎
Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. "Proximal Policy Optimization Algorithms." arXiv preprint arXiv:1707.06347 (2017). ↩︎
DeepSeek-AI. DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence. ↩︎
Wang, Y., Chen, X., Jin, X., Wang, M., & Yang, L. "OpenClaw-RL: Train Any Agent Simply by Talking." arXiv preprint arXiv:2603.10165 (2026). ↩︎
Shinn, N., Cassano, F., Gopinath, A., Narasimhan, K., & Yao, S. "Reflexion: Language Agents with Verbal Reinforcement Learning." NeurIPS (2023). ↩︎
Yang, H., Xu, Z.-Q. J., Xiong, F., & E, W. "A First-Principles Theory of Slow Thinking and Active Perception." ResearchGate (2024). ↩︎