Agentic RL: 自我进化的大模型新范式 (Part I)

大模型的发展正在发生一次深刻的结构性转变。从最初问答式的聊天助手，逐渐演变为能够主动检索信息、调用工具，甚至在复杂环境中自主完成多步任务的 Agentic 智能体模型。在这场演进中，Agentic RL（智能体强化学习） 正在成为底层模型优化的核心引擎。它将大模型从一个只能输出文本的生成器，打造成了一个能够在环境中行动、观察、纠错、积累轨迹，并持续自我改进的动态学习系统。

1. 什么是 Agentic Models

要理解 Agentic RL，首先要了解什么是 Agentic Models。它与普通聊天模型的根本差异在于：它不只是在生成文本，而是在一个环境中执行动作，观察反馈，并在反复多轮之后完成任务。 Agentic Models 可以调用浏览器搜索、写代码并在沙箱中解释执行、查询 SQL 数据库、操作 GUI 界面，甚至向真实的科学仿真器提交实验参数，然后根据环境反馈的结果继续下一步行动。

我们可以用几个核心概念来描述这个过程：

Problem（任务）：模型要解决的终极目标，比如修复一个 Bug、预测一支股票，或优化一种分子结构。
Action（动作）：模型执行的具体操作，如调用 API、运行代码。
Observation（观察）：环境对动作的真实反馈，如报错日志、网页内容、仿真分数。
Turn（轮次）：一次完整的 Action 与 Observation 闭环。
Trajectory（轨迹）：从任务开始到最终成功（或失败）的完整多步探索路径。
Reward（奖励）：环境、验证器或规则系统对这条轨迹或其中某一步的评价。

传统 LLM 更像是一个静态的知识压缩器 ：用户给出一个 Prompt，模型单次生成答案。而 Agentic Model 则是一个 带有外部知识记忆和行动力的策略模型 ：它可以把复杂任务拆解，在外部试错，把反馈纳入上下文，并动态调整策略。

普通 LLM 与 Agentic Model 的核心差异

维度	普通 LLM	Agentic Model
交互方式	单轮或短对话	多步行动与观察闭环（Action-Observation Loop）^[1]
主要能力	生成、总结、问答	规划、工具调用、纠错、环境探索
反馈来源	用户主观打分或偏好（RLHF）	工具结果、代码报错、仿真器分数、真实世界验证
训练难点	答案的质量与人类价值观对齐	长程信用分配（Credit Assignment）与高密度环境信号的获取

当模型开始执行动作，训练的核心问题就从评估生成文本质量的好坏，变成了衡量系统是否最终能够完成任务，以及每一步行动是否让系统更接近目标。这正是强化学习（RL）必须进场的根本原因。

2. 为什么 Agentic Models 需要强化学习？

一直以来，在预训练之后我们习惯用监督微调（SFT）来调优模型。但把 SFT 用在 Agent 上，很快就会遇到天花板。

SFT 的本质是模仿。它依赖于高质量的人类专家示范轨迹。然而，真实世界中 Agent 面临的任务路径空间极其庞大：

工具调用对格式和状态依赖极强，少量的成功示范根本无法覆盖海量的异常分支和报错场景。
对于复杂的软件工程、数学推导或科学发现（如蛋白质或晶体结构预测），真正的专家轨迹稀缺且昂贵。
模型一旦部署，环境规则可能会变化，静态的 SFT 数据集会迅速过期。

强化学习（RL）的切入点恰恰在此：它不要求给定静态的最优轨迹，而只要求环境能对结果给出评价。对于代码生成、SQL、定理证明等存在客观验证机制的场景，模型完全可以通过在环境中的海量探索试错来实现自我进化。

但在 Agent 场景下落地 RL，面临着三个极其棘手的挑战：

Sparse Reward（稀疏奖励）：很多任务只有在最后第 50 步才知道是成功还是失败，前 49 步全在摸索，没有明确的对错信号。
Credit Assignment（信用分配）：如果最终任务失败了，究竟是第 3 步的数据查错了，还是第 40 步的代码写的有问题？
Environment Cost（环境成本）：真实环境的反馈可能非常慢且昂贵（例如执行一次密度泛函理论 DFT 计算、跑一次真实的生物湿实验）。

Agentic RL 的算法演进，本质上就是在不断尝试解决以上三大难题：把稀疏、昂贵、嘈杂的环境反馈，转化为密集、稳定、可扩展的训练信号。

3. Reward：Agentic RL 的迭代核心

既然要更好获取环境反馈，Reward（奖励）的设计就是整套系统的核心要点。

常见的 Reward 分为几种：人类反馈（精准但昂贵）、LLM/AI 裁判（成本相对低但易幻觉）。而在 Agent 领域，更加可靠，易于 scale up，目前算法迭代也最快的是 Verifiable Reward（可验证奖励）。

3.1 Verifiable Reward

在很多任务中，只要任务结果能被客观验证，模型就能打破人类标注的瓶颈，开启数据飞轮：

数学：最终答案是否与 Ground Truth 匹配（如 DeepSeekMath ^[2] 的实践）。
代码：编译，单元测试通过，并能高性能完成既定任务。
游戏：是否过关，得分是否上升。

Verifiable Reward 是最直接的 Outcome Reward（结果奖励）。但这还不够：如果一个任务有几十步，只在最后给出 +1 或 -1 的反馈，模型的学习信号非常稀疏，也无法定位具体的问题，学习效率会极其低下。

3.2 从 Outcome 到 Process Reward

为了解决长程任务的信号稀疏问题，PRM（Process Reward Model，过程奖励模型） 应运而生（参考 OpenAI 的经典论文 Let's Verify Step by Step ^[3]）。

PRM 不再只看最终结果，而是深入轨迹内部，把每一步的 Action 和 Observation 作为上下文，评估这一步是否实质性地推动了任务进展。直观来看，最终的奖励可以表示为：

FinalReward = OutcomeReward + λ \cdot mean (ProcessRewards)

在工具调用的场景中，命令行返回的结果、编译器的报错，天然就构成了极具价值的下一步状态信号（Next-State Signal）。PRM 的优势，不在于它有多聪明，而在于它把黑箱般的长轨迹，拆解成了局部可学习的密集反馈。

你可能会问，如果模型自己都做不好，凭什么指望 Judge/PRM 判得准？答案藏在计算复杂性理论中：验证永远比生成更容易。就像验证一个数独的解是否正确（P 问题），远比凭空填满一个数独（NP 问题）要简单。执行任务的 Policy Model 需要绞尽脑汁规划路径、调用工具，而 Judge 只需要看着当前的上下文和工具反馈，给出一个客观的评分。

3.3 复杂场景的 Multi-Tier Verifier

在复杂的工业、科学和金融等场景中，验证成本天然存在巨大的差异：一次 RDKit 分子合法性检查只需毫秒级，一次 AlphaFold 折叠或者时序信号分析是分钟级，而一次湿实验（Wet Lab）或者等待真实市场反馈可能需要数天。

为了在“验证保真度”和“数据生产成本”之间达到最优平衡，本文提出引入Multi-Tier Verification（多层验证阶梯）：

验证层级	代表工具示例	成本	核心作用
Fast-tier (快速层)	知识图谱对齐、数据 Schema 校验、RDKit 分子语法	极低	毫秒/秒级过滤低级错误与事实幻觉
Simulation-tier (仿真层)	机器学习力场 (MLFF)、AlphaFold ^[4] 结构预测、时序信号预测	中等	提供高保真的近似物理代理反馈
High-fidelity tier (高精层)	密度泛函理论 (DFT) 计算、分子动力学 (MD) 模拟	较高	提供严谨、强约束的高质量物理计算验证
Lab-tier (现实层)	湿实验 (Wet Lab)、专家人工反馈、真实交易市场	高	提供最终的真实世界真理裁决

在系统探索时，模型生成的初步假设会先走低成本的 Fast-tier；只有当验证通过、或者是遇到高价值且高不确定的候选解时，系统才将其调度到昂贵的 Simulation-tier 或 Lab-tier。这把“验证器强度”和“数据生产成本”变成了一个可编排的资源调度问题。

4. RL 算法进化史：从稀疏标量到密集向量信号

随着 Reward 信号的不断完善，底层的 RL 算法也在持续演进。PPO、GRPO、PRM、OPD 等等算法都是在工程复杂度、计算资源和信号质量之间不断寻找更优解的产物。

4.1 PPO 与 GRPO：Actor-Critic 的经典与革新

PPO（Proximal Policy Optimization） 是大模型 RLHF 时代最主流的算法（参考 OpenAI 的经典文献 PPO ^[5]）。PPO 的核心特点在于，它只需进行单次试错（Roll-out），Critic（价值模型）就会为轨迹中的每一步（Action 或 Token）给出一个客观的基准预估分。系统通过计算该动作实际拿到的 Reward 相对于 Critic 预估分的优势（Advantage）来指引方向。模型训练的过程，就是不断去提升这些具备优势的动作出现的概率。这种机制能提供非常细致的 Token 级反馈，并且在 KL 散度约束下保证了极高的稳定性，但成本也很高昂：它必须额外维护一个与主模型同等规模的 Critic 模型，这对训练显存和集群通信是个沉重的负担。

为了降低训练 LLM 的系统开销，DeepSeek 等团队开发了 GRPO（Group Relative Policy Optimization） ^[2:1] 算法。GRPO 的突破创新在于，对于同一个 prompt，模型批量生成多条轨迹（比如 16 条），然后通过对比这组轨迹的 Reward 高低，计算出局部的相对优势（Advantage）。它不再追问每一步的绝对得分，而是评估在当前这批尝试中，哪条路径相对更好，从而规避了对昂贵 critic model 的需求。在拥有强 Verifier 的数学和代码场景，GRPO 展现出了极高的性价比。

4.2 OPD：RL 与 SFT 的有机融合

无论是 PPO 还是 GRPO，本质上提供的都是标量奖励（Scalar Reward）：告诉模型当前动作是好（+1）还是坏（-1）。但当模型犯错时，它往往不知道具体哪个 Token 写错了。

OPD（On-Policy Distillation，同策略蒸馏） 进一步提升了训练信号的质量。在 OPD 中，Student 模型先按自己的策略（On-Policy）生成探索轨迹，随后系统会引入强大的 Teacher 模型，在同一条轨迹上计算出 Token 级别的目标概率分布来引导学习。

以刚发布的 DeepSeek-V4 ^[6] 为例，为了融合多个专家的能力并解决传统标量估值方差过大的问题，它采用了多教师全词表蒸馏（Multi-Teacher Full-Vocabulary OPD）：系统先分别训练出多个领域的专家模型（Teachers），然后在 Student 试错的轨迹上，直接计算并合并这些专家在整个词表（Full-Vocabulary）上的完整 Logit 分布，以此作为反向 KL 散度（Reverse KL loss）的优化目标。相比于传统的单 Token 优势估计，这种全词表的稠密概率分布有效降低了梯度方差，确保了极高的训练稳定性。

OPD 的突出优势在于：它既具备了 RL 的 On-Policy 特性（贴近当前模型真实的短板和环境分布），又享受了 SFT 般密集的 Token 级别方向性监督。模型不再是在盲目试错中碰运气，而是有一个严师手把手指出每一个具体错误并提供正确 Token 的修正方向。

4.3 Hindsight Supervision：从后见之明中学习

在 Agent 的交互中，我们经常遇到这种情况：模型跑完一段代码，终端弹出一长串 traceback 报错（例如：TypeError: expected string or bytes-like object）。传统的 RL 会直接给予 -1 惩罚。但 Hindsight Supervision（后见之明监督） 认为这是巨大的浪费（参考近期关于 OpenClaw-RL ^[7] 与 Agent 环境交互的研究，以及 Reflexion ^[8] 等自我反思机制）。

如果用 Theory of Slow Thinking ^[9]（慢思考理论） 的视角来解释，这种事后学习的本质是在逼近最优的后验采样器（Posterior Sampler）。在面对复杂的开放式问题时，模型如果只根据问题本身去盲目探索，很难碰巧找到正确的推理路径；但一旦知晓了事后的结果（比如最终答案或具体的环境报错），系统就可以带着全局视角，逆向构建出有效连接问题与答案的桥梁思考（Bridge Thought）。

在工程实践中，我们把报错信息等事后反馈作为 Hint（提示） 喂给 Teacher 模型。借助这些后验信息，Teacher 不需要自身拥有很强的能力，也能够生成出真正有效的修正代码或推理路径，并去监督只能看到事前视角的 Student 模型。

这种将环境反馈中的 Directive Signal（指示性信号）直接转化为训练数据的方法，使得模型能快速学会在没有提示的情况下规避错误。

小结

回顾 Agentic RL 的一路演进：Reward 从只看终点的 Outcome，走向了逐步打分的 Process Reward；算法从 PPO 的标量反馈，走向了 OPD 的 Token 级监督；失败轨迹也不再被丢弃，而是通过 Hindsight 机制回收为训练数据。这些改进指向同一个方向——把稀疏、昂贵的环境信号，尽可能高效地转化为模型可学习的密集梯度。

在接下来的内容中，我们将从算法转向工程与落地：在科学发现和金融预测等场景中，这套范式如何实际运转？以及如何利用 Verl、SkyRL 等框架，构建可持续迭代的 Agent 训练系统？

参考文献

Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. "ReAct: Synergizing Reasoning and Acting in Language Models." ICLR (2023). ↩︎
Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Bi, X., et al. "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models." arXiv preprint arXiv:2402.03300 (2024). ↩︎ ↩︎
Lightman, H., Kosaraju, V., Burda, Y., Edwards, H., Baker, B., Lee, T., Leike, J., Schulman, J., Sutskever, I., & Cobbe, K. "Let's Verify Step by Step." arXiv preprint arXiv:2305.20050 (2023). ↩︎
Abramson, J., Adler, J., Dunger, J., Evans, R., Green, T., et al. "Accurate structure prediction of biomolecular interactions with AlphaFold 3." Nature (2024). ↩︎
Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. "Proximal Policy Optimization Algorithms." arXiv preprint arXiv:1707.06347 (2017). ↩︎
DeepSeek-AI. DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence. ↩︎
Wang, Y., Chen, X., Jin, X., Wang, M., & Yang, L. "OpenClaw-RL: Train Any Agent Simply by Talking." arXiv preprint arXiv:2603.10165 (2026). ↩︎
Shinn, N., Cassano, F., Gopinath, A., Narasimhan, K., & Yao, S. "Reflexion: Language Agents with Verbal Reinforcement Learning." NeurIPS (2023). ↩︎
Yang, H., Xu, Z.-Q. J., Xiong, F., & E, W. "A First-Principles Theory of Slow Thinking and Active Perception." ResearchGate (2024). ↩︎

Agentic RL: 自我进化的大模型新范式 (Part I) ​

1. 什么是 Agentic Models ​

2. 为什么 Agentic Models 需要强化学习？ ​

3. Reward：Agentic RL 的迭代核心 ​

3.1 Verifiable Reward ​

3.2 从 Outcome 到 Process Reward ​

3.3 复杂场景的 Multi-Tier Verifier ​

4. RL 算法进化史：从稀疏标量到密集向量信号 ​

4.1 PPO 与 GRPO：Actor-Critic 的经典与革新 ​

4.2 OPD：RL 与 SFT 的有机融合 ​

4.3 Hindsight Supervision：从后见之明中学习 ​

小结 ​

参考文献 ​