Agentic RL (Part II):面向真实世界任务的 RL 系统

在 Part I 里,我们已经讨论了 Agentic Model、Action-Observation Loop、Reward,以及当模型不只是生成文本,而是在环境中行动、观察和修正时,RL 为什么会成为核心优化工具。
但真正进入金融预测、科学发现、化学推理这些现实场景后,我们会遇到一个更底层的问题:不是缺少 RL 算法,而是缺少一个足够好的环境。真实世界任务往往没有即时标准答案,反馈可能延迟数天、数月甚至更久;验证成本从简单的规则检查到昂贵的实验不等;模型还可能学会利用评分器漏洞做 reward hacking,而不是解决真实问题。
所以,真实世界中的 Agentic RL 首先是 environment engineering,其次才是算法选择。一个开放任务能不能被表示成可行动、可观察、可验证、可沉淀轨迹的环境,往往决定了 RL 能不能真正跑的解决高价值问题。
本文用三个系统作为切面:EchoZ、Simple-TES 和 ether0。它们分别面向未来事件预测、科学工程搜索和化学推理,但共同点非常明确:都在围绕环境、验证器、轨迹库和数据飞轮做系统设计。
1. 跨越静态解题:直面真实世界的开放任务
在数学、代码和选择题里,verifiable reward 相对干净:最终答案是否匹配、单元测试是否通过、选项是否正确。但真实世界开放任务更像另一类问题:
| 类型 | 例子 | Reward 特征 | 核心难点 |
|---|---|---|---|
| 静态可验证任务 | 数学、代码、选择题 | 答案明确,reward 干净 | 算法和采样效率 |
| 真实世界开放任务 | 金融预测、科学发现、分子设计 | 延迟、嘈杂、昂贵、可作弊 | 环境、验证器、数据闭环 |
这也是为什么很多现实 Agentic RL 系统并不是从“我要用哪个 RL 算法”开始,而是先回答四个问题:
- Environment:模型能做什么 action?环境如何返回 observation?
- Exploration:模型如何搜索?并行调研、局部迭代,还是 specialist 分领域优化?
- Reward / Verifier:如何判定好坏?是真实结果、rubric、evaluator、simulation,还是工具组合?
- Learning Loop:高质量轨迹如何进入训练?是 SFT、IRFT、GRPO、Distillation,是否要打造持续学习系统?
下面三个案例,就是这四个问题的三种不同答案。
2. EchoZ:把未来变成训练数据
未来事件预测看起来不像传统 RLVR,因为模型做预测时并没有标准答案。但它有一个独特优势:事件最终会在现实世界中得到验证(resolution)。也就是说,问题生成时没有标签,等待一段时间后却能得到 ground truth。
EchoZ 正是利用了这一点,提出了 Train-on-Future:不再用已经发生的历史事件训练预测模型,而是持续生成关于未来的问题,让 Agent 在当下信息不完备的状态下做预测,等现实世界给出结果后,再反过来评价轨迹质量。EchoZ 基于 ReAct 式的 Thought-Action-Observation 循环构建预测 Agent,并把完整交互过程保存成 trajectory。[1][2]
一个简化流程是:
实时趋势 -> 未来问题生成 -> 多 Agent 调研与预测
-> 等待事件 resolution -> ground truth
-> Brier / Elo 排名 -> rubric 过程评分 -> 高质量轨迹过滤
-> SFT / RL / Distillation -> 新模型继续预测未来这件事的关键不只是“拿未来当标签”。更深一层看,Train-on-Future 把现实世界变成了一个异步、持续、天然 OOD 的环境采样器。
2.1 Map-Reduce 预测 Agent
EchoZ 不是让单个 Agent 搜一遍网页后给出概率,而是把预测任务拆成 Map-Reduce 式的信息收集与证据合成。
在 Map 阶段,系统把宏观问题拆成多个相对正交的子任务,不同 Agent 分别检索官方文件、新闻报道、数据库、预测市场、社交信号等证据。在 Reduce 阶段,聚合节点处理信源冲突,区分一手证据、二手报道、市场价格和噪声信号,并输出结构化概率预测。
这一步的意义是把“预测一个答案”改造成“产生一条可审计的证据轨迹”。轨迹里不仅有最终概率,还有模型为什么查这些资料、看到了什么、如何处理冲突证据、最后如何校准概率。
2.2 用未来降低数据泄露
传统 Train-on-Past 范式的麻烦在于,历史网页、新闻和结果很可能已经进入预训练语料。即使严格切分时间,也很难恢复某个历史时刻的真实互联网状态。事实上,试图在历史数据集上通过打快照来防止“偷看答案”在工程上被证明是极其困难的。
EchoZ 的 Train-on-Future 意味着完全顺应真实的物理时间:系统只在事件发生前收集 Agent 的完整预测轨迹,并在事件 resolution 之后依据这些锁死在历史中的轨迹进行后训练。在这样的预测系统里,真实时间的不可逆性本身就是最核心的环境工程。
2.3 Rubrics 是专家过程知识的提炼
未来预测不能只看最后对不对。一个严谨判断可能因为黑天鹅事件而失败,一个坏判断也可能靠运气猜中。如果直接用 outcome reward 训练,模型会把现实噪声误当成推理信号。
EchoZ 因此用多维 rubric 评价预测过程。原始 rubric 可以大致分成四类:
| 类别 | 关注点 |
|---|---|
| Sourcing | 是否使用一手来源,是否过滤旧闻新炒、搜索片段误导、元数据错误 |
| Logic | 是否理解 resolution criteria,是否做好实体消歧,是否区分口头宣称和实际执行 |
| Timeline | 是否计算剩余时间窗口,是否考虑流程滞后、触发事件和退出路径 |
| Calibration | 是否使用类似事件历史概率 base rate,是否把无证据视作负面证据,概率是否匹配证据强度 |
这些 rubric 本质上是把分析师的隐性方法论拆成机器可执行的过程评价维度。
更有意思的是,EchoZ 并不完全依赖人工写 rubric。它用已 resolution 事件计算模型或轨迹的真实 Elo 排名,再让候选 rubric 对同一批轨迹打分,比较 rubric ranking 与真实 Elo ranking 的 Spearman 相关性,最后保留最能预测真实胜率的 rubric。[2:1]
这一步把 rubric 从经验规则变成了被真实世界反复校准的奖励模型。Ground truth 不只是最终标签,也可以用来选择更可靠的过程评价标准。
3. Simple-TES:把测试期搜索蒸馏成科学发现能力
EchoZ 利用的是“未来会给答案”的异步反馈。Simple-TES 面向的则是另一类任务:候选解可以被 evaluator 打分,但最优解很难直接写出来。比如 GPU kernel 优化、量子线路编译、算法工程、组合构造、圆堆积、Hadamard 矩阵、scRNA-seq 降噪和 scaling law discovery。[3]
这些任务的共同点是:解空间高度非凸,局部改进和全局跳跃都重要,大量失败尝试本身也包含信息。所以 Simple-TES 的核心不是让模型一次答对,而是在测试期进行有组织的 trial-and-error。
3.1 C × L × K:搜索预算如何分配
Simple-TES 把总评估预算拆成三个维度:
| 维度 | 含义 | 作用 |
|---|---|---|
| 并行轨迹数 | 全局探索,避免早期路径锁死 | |
| 每条轨迹迭代轮数 | 利用反馈逐步改进 | |
| 每轮候选数 | 降低单步采样噪声 |
每条轨迹在每一轮基于历史反馈构建 prompt,生成
这说明 test-time scaling 不是盲目多采样,而是在全局探索、局部枚举尝试和长期反馈累积之间分配预算。数学构造类任务往往更依赖
3.2 Context selection 也是 policy 的一部分
Simple-TES 的 Context Builder 不是把所有历史都塞进 prompt,而是决定哪些成功、失败和中间解释应该进入上下文。
RPUCG 类似 DeepMind 在 AlphaGo / AlphaZero 系列工作中使用的 PUCT (Predictor Upper Confidence Bound applied to Trees) 算法[4][5],平衡高分节点、能带来高分后代的节点和尚未充分探索的节点;Balance 同时保留 best、elite、explore、random,显式维护多样性;LLM-Elite 则用辅助 LLM 维护方法论多样的精英池。
这背后的原则很重要:在 Agentic RL 里,memory/context selection 本身就是 policy 的一部分。模型看见什么失败、什么成功、什么中间解释,会直接决定下一步搜索方向。
3.3 从候选级奖励到轨迹级学习
Simple-TES 没有简单按每个候选的即时得分训练模型,因为这会让策略变得短视。科学发现中,早期低分尝试可能是后续突破的脚手架,某一步失败也可能暴露重要错误模式。
因此它采用轨迹级后训练:先大规模采样轨迹,再按每条轨迹达到的历史最高分排序,只保留 Top
这看起来像 SFT,但数据不是人类静态示范,而是 evaluator 从大规模 rollout 中筛出的高质量探索路径。Simple-TES 的分析中有一个很能说明问题的数字:冷启动阶段数百万候选轨迹里,最终只保留约 0.48% 的最优轨迹,提炼成高质量训练数据。
换句话说,Simple-TES 是用昂贵的测试期算力,把低密度的探索空间蒸馏成高质量的训练数据。大规模搜索先于学习,学习再反过来提升下一轮搜索研究的效率。
4. ether0:化学推理中的多层 verifier
ether0 面向的是化学推理和分子设计。它不是普通化学问答模型,而是一个基于 Mistral-Small-24B 的 24B reasoning model,训练在 640,730 个实验 grounded 的化学问题上,覆盖 375 个任务,任务范围从 synthesizability、血脑屏障穿透、人体受体活性到气味等。[6]
这类任务非常适合检验 Part I 里说的“生成难,验证易”:设计一个满足约束的分子很难,但检查一个候选分子是否满足 SMILES 合法性、分子式、官能团、反应可行性或某个性质预测,相对更容易。
4.1 从 SFT 到 Generalist GRPO
ether0 的训练流程可以压缩成四步:
- Long CoT SFT 冷启动:用强模型生成长推理链,并通过格式、SMILES/SMIRKS 合法性和 LLM-as-Judge 过滤。
- Specialist GRPO:按任务族训练 specialist,让模型先在更窄分布上探索。GRPO 的相对优势估计来自 DeepSeekMath 工作中的 critic-free RL 思路[7]。
- Specialist Distillation:收集 specialist 训练过程中的正确轨迹,过滤低质量 reasoning、非英文输出和坏分子结构,蒸馏回 generalist。这点与 DeepSeek-V4[8] 中 teacher model 的轨迹蒸馏思路有异曲同工之妙。
- Generalist GRPO:在所有任务上联合训练,并结合 curriculum、molecule quality bonus 和 safety alignment。
Specialist 和 curriculum 的意义,是让 rollout 尽量停留在模型能力边界附近。如果同一组 completion 全对或全错,GRPO 的 advantage 接近零,训练信号就被浪费了。
4.2 Reward 是 verifier dispatch,不是单个判分器
ether0 的 reward 不是一个模型给总分,而是一组领域工具、规则、数据库和 surrogate model 的组合:
| 任务 | verifier 示例 |
|---|---|
| IUPAC / MCQ | 字符串或规范化匹配 |
| SMILES completion | RDKit 合法性 |
| Molecular formula | Hill notation / 分子式约束 |
| Functional group | 分子式 + 官能团双约束 |
| Solubility edit | KDESol 等性质预测器 |
| Retrosynthesis | 可购买性 Bloom filter + Molecular Transformer |
| Reaction prediction | 产物精确匹配或软匹配 |
这就是科学和工程 RL 的典型形态:reward 不是一个抽象标量,而是一套 verifier dispatch。低成本规则先过滤掉无效样本,高保真模型和数据库再校准高价值区域。对于真实科学任务,单一 oracle 往往太贵,单一规则又太弱,多层 verifier 融合才能可扩展的解决现实复杂问题。
4.3 防作弊必须写进 reward
化学任务很容易 reward hacking。例如 retrosynthesis 里把目标产物直接放进反应物,生成语法合法但现实中不合理的分子,或者利用 surrogate model 的漏洞优化单一指标而牺牲合成可行性。
ether0 的防线包括 reasonable molecule check、bad substructure / negative SMARTS pattern、format reward 与 accuracy reward 的组合、molecule quality bonus 和 safety alignment。它说明真实世界 RL 的 reward 至少要包含三类信号:目标奖励、约束奖励和反作弊惩罚。
只定义“想要什么”是不够的,还必须定义“哪些捷径不算数”。
5. 环境和任务驱动的数据 AI 引擎
| 维度 | EchoZ | Simple-TES | ether0 |
|---|---|---|---|
| 任务类型 | 未来事件预测 | 科学/工程搜索 | 化学推理与分子设计 |
| 探索方式 | Map-Reduce 多 Agent 调研 | Specialist GRPO + distillation | |
| Reward | ground truth、Brier/Elo、rubrics | evaluator score、trajectory best score | format reward、领域 verifier、quality bonus |
| 数据飞轮 | Train-on-Future | 大规模 rollout 后强过滤 | specialist 正确轨迹蒸馏到 generalist |
| 核心风险 | 时间泄露、现实噪声、概率失真 | 短视 reward、过拟合 evaluator、计算成本 | reward hacking、不合理分子、trivial groups |
将以上几个案例融合在一起,我们发现了 Agentic RL 在真实系统中应用的几条共同原则。
第一,先构造环境,再谈算法。没有可行动、可观察、可验证的环境,再好的 RL 算法也只是对噪声做梯度下降。
第二,reward 要同时满足可信、密集、低成本和防作弊。EchoZ 解决的是延迟真实结果和过程 rubric 的校准问题;Simple-TES 解决的是 evaluator 驱动的大规模试错;ether0 解决的是领域 verifier 的分层调度和反作弊约束。
第三,轨迹比答案更重要。Agentic RL 的训练对象不是 answer,而是 trajectory。答案只是轨迹最后一行,真正可迁移的是模型如何搜索、验证、修正和停止。
第四,高质量数据来自大规模探索后的精选。EchoZ 过滤高 rubric / 高 Elo 轨迹,Simple-TES 从数百万候选中只留极少数精英轨迹,ether0 过滤正确轨迹、低质量 reasoning 和坏分子结构。
第五,Rubric 或多层 Verifier 将成为开放任务 RL 的重要中间层。面对难以直接评判的任务,EchoZ 将专家的预测过程提炼成了多维 rubric,ether0 则构建了从轻量规则到高保真模型的多层 verifier 组合,它们都通过显式的中间层为模型提供了探索方向和过程约束。
虽然 CL-Bench 等工作表明了现有模型在面对大量全新 rubric 约束时表现不佳[9],但这同时也促使类似 Rubrics-to-Tokens 的技术开始尝试将宏观 rubric 转化为更细粒度的 token 级别奖励[10],以解决复杂任务下的奖励分配难题。
这些方向共同说明:未来领域模型和智能体系统的护城河,不会只是参数规模,而是围绕领域环境工具、任务奖励、验证器、轨迹数据库和训练闭环形成的数据 AI 生产系统。
然而,当这些复杂的设计真正走向落地时,瓶颈不可避免地会下沉到基础设施层:庞大的 Rollout 并发请求、多层 Verifier 的异步调度、训练与推理引擎间的权重流转,以及 Agent 交互环境的安全隔离,无一不在考验着底层系统的吞吐量、稳定性与可扩展能力。正是为了解决这些工程挑战,在本系列的下一篇文章中,我们将把目光转向 Verl、SkyRL 等专为 Agentic RL 打造的基础设施。
References
Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, and Yuan Cao. "ReAct: Synergizing Reasoning and Acting in Language Models." ICLR, 2023. ↩︎
UniPat AI. "Echo: Towards General AI Prediction." 2026. ↩︎ ↩︎
Haotian Ye, Haowei Lin, Jingyi Tang, Yizhen Luo, Caiyin Yang, Chang Su, Rahul Thapa, Rui Yang, Ruihua Liu, Zeyu Li, Chong Gao, Dachao Ding, Guangrong He, Miaolei Zhang, Lina Sun, Wenyang Wang, Yuchen Zhong, Zhuohao Shen, Di He, Jianzhu Ma, Stefano Ermon, Tongyang Li, Xiaowen Chu, James Zou, and Yuzhi Xu. "Evaluation-driven Scaling for Scientific Discovery." arXiv:2604.19341, 2026. ↩︎
David Silver, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, Sander Dieleman, Dominik Grewe, John Nham, Nal Kalchbrenner, Ilya Sutskever, Timothy Lillicrap, Madeleine Leach, Koray Kavukcuoglu, Thore Graepel, and Demis Hassabis. "Mastering the game of Go with deep neural networks and tree search." Nature, 529(7587): 484-489, 2016. ↩︎
David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, Yutian Chen, Timothy Lillicrap, Fan Hui, Laurent Sifre, George van den Driessche, Thore Graepel, and Demis Hassabis. "Mastering the game of Go without human knowledge." Nature, 550(7676): 354-359, 2017. ↩︎
Siddharth M. Narayanan, James D. Braza, Ryan-Rhys Griffiths, Albert Bou, Geemi P. Wellawatte, Mayk Caldas Ramos, Ludovico Mitchener, Samuel G. Rodriques, and Andrew D. White. "Training a Scientific Reasoning Model for Chemistry." arXiv:2506.17238, 2025. ↩︎
Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, Y. K. Li, and Daya Guo. "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models." arXiv:2402.03300, 2024. ↩︎
DeepSeek-AI. "DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence." ↩︎
Shihan Dou, Ming Zhang, Zhangyue Yin, Chenhao Huang, Yujiong Shen, Junzhe Wang, Jiayi Chen, Yuchen Ni, Junjie Ye, Cheng Zhang, Huaibing Xie, Jianglu Hu, Shaolei Wang, Weichao Wang, Yanling Xiao, Yiting Liu, Zenan Xu, Zhen Guo, Pluto Zhou, Tao Gui, Zuxuan Wu, Xipeng Qiu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Di Wang, and Shunyu Yao. "CL-bench: A Benchmark for Context Learning." arXiv:2602.03587, 2026. ↩︎
Tianze Xu, Yanzhao Zheng, Pengrui Lu, Lyumanshan Ye, Yong Wu, Zhentao Zhang, Yuanqiang Yu, Chao Ma, Jihuai Zhu, Pengfei Liu, Baohua Dong, Hangcheng Zhu, Ruohui Huang, and Gang Yu. "Rubrics to Tokens: Bridging Response-level Rubrics and Token-level Rewards in Instruction Following Tasks." arXiv:2604.02795, 2026. ↩︎