近年来,大模型技术的发展正在推动 AI 从 "回答问题" 逐渐迈向 "执行任务"。在这一转变过程中,一个新的研究方向正在快速兴起:Agentic AI。在 Agentic AI 的世界里,大模型不再只是一个文本生成器,而是一个通过调用工具、环境交互、多步推理来执行复杂任务的智能体。
然而,当 Agent 能够在真实环境中运行时,一个新的问题随之出现:我们应该如何训练这样的 Agent?
中国科大认知智能全国重点实验室提出的 Claw-R1 项目,正是针对这一问题提出的一种全新的强化学习训练框架。它尝试将 前沿的Agent Runtime(比如OpenClaw) 与强化学习训练框架深度结合,为 Agentic AI 提供一个新的训练基础设施。
大模型强化学习正在经历一次重要转变:从人类偏好学习(RLHF),到任务结果学习(RLVR),再到环境交互学习(Runtime RL)。
| 阶段 | 目标 | 奖励来源 |
|---|---|---|
| RLHF | 生成更符合人类偏好的文本 | Human preference |
| RLVR | 完成可验证任务 | Verifiable reward |
| Runtime RL | 在真实环境中行动 | Environment feedback |
- 第一阶段:Preference-based RL,让模型生成更符合人类偏好的回答(代表工作:InstructGPT、RLHF)。
- 第二阶段:Task-verifiable RL,训练模型完成可验证任务(代表工作:VERL、Agent-R1)。
- 第三阶段:Runtime-interactive RL,让模型在真实 Agent Runtime 中学习行为策略(本项目介绍的Claw-R1)。
总的趋势:AI 的奖励来源正在越来越接近真实世界。
尽管 RLVR 已经能够支持 多轮交互学习,但仍然存在一个关键问题:
Agent 运行环境并不真实。
目前大多数 RLVR 框架依赖的都是研究导向的模拟环境,例如:
- coding benchmark(代码生成评测)
- reasoning tasks(数学推理、逻辑推断)
- synthetic environment(人工构造的任务沙盒)
这些都是 特定任务的训练场,而非真实的 Agent Runtime。模型可以学会推理和决策,但它从未真正运行在现实工具系统中。
随着 Agent 技术的成熟,这一缺口愈发明显:我们需要一个真实可用的 runtime 环境作为训练基础。
OpenClaw 是一款开源的个人 AI Agent 操作系统,采用 MIT 协议、TypeScript 实现,遵循本地优先原则。自发布以来,它在 8 周内获得超过 236,000 个 GitHub Star,成为开源历史上增长最快的项目之一。
其核心架构采用 Hub-and-Spoke 设计:15+ 主流消息平台通过统一 Gateway 接入,驱动中央的 Pi Agent Runtime 执行任务。两项关键创新使其真正具备生产可用性——Lane Queue 机制通过串行执行消除并发竞态条件,三层混合记忆系统则为 Agent 提供稳定的上下文管理能力。
OpenClaw 因此成为第一个可以在真实消息环境中自主、持续运行的 Agent 平台,为 Agentic RL 提供了此前从未有过的真实 Runtime 基础。
当 OpenClaw 这样的 Agent Runtime 出现后,一个新的问题随之而来:
如何训练能够在 OpenClaw 这样的 runtime 中高效运行的模型?
传统 RLVR 框架虽然可以训练 Agent,但它们通常:
- 没有真实 runtime
- 没有复杂工具系统
- 没有完整任务环境
这意味着:
模型的训练环境与真实 Agent Runtime 之间存在明显鸿沟。
如果模型是在简化环境中训练的,那么当它运行在真实 Agent 系统中时,往往会出现:
- 工具调用混乱
- 规划能力不足
- 长任务不稳定
因此,需要一种新的训练框架:
能够直接在 Agent Runtime 上进行强化学习训练。
Claw-R1(OpenClaw-RL)的核心目标,就是解决这一问题。
它尝试构建一个完整系统:
Agent Runtime + RLVR Training Loop
在这个系统中:
Agent 在真实环境中执行任务,而训练系统利用任务结果进行强化学习更新。
整体系统可以分为三个部分:
- Agent Runtime:OpenClaw 提供的真实运行环境,Agent 在此调用工具、与用户交互、执行多步任务
- Interaction Data Pool:收集 Agent 在真实环境中的交互轨迹,作为强化学习的训练数据来源
- RLVR Training Engine:基于真实轨迹数据,对模型进行强化学习更新,形成闭环训练
Claw-R1 引入 Middleware 中间层(Gateway Server + DataPool),作为 Agent 侧与训练侧之间的唯一桥梁。训练框架为白盒与黑盒智能体提供 OpenAI 兼容的接口,并通过 HTTP 通信,支持三种运行模式:白盒离线、黑盒离线、黑盒在线服务。Agent 与训练彻底解耦,实现真正的「双向适应」。
- 训练与 Rollout 异步:框架内 Rollout Engine(负责生成)与 Training Engine(负责训练)异步运行。OpenClaw 通过 Gateway 调用 LLM 时,生成数据流入 DataPool,Training Engine 从 DataPool 拉取批次更新模型,二者互不阻塞。
- Agent 与训练解耦:OpenClaw 在 Mac Mini 上提供服务,模型训练在高性能服务器上进行。Agent 运行与 RL 训练完全独立,无需预置数据集,边服务边训练。
- 零代码侵入:OpenClaw 只需将调用 LLM 的
base_url指向 Claw-R1 的 Gateway,即可接入训练框架。无需修改 OpenClaw 的 Agent 逻辑,框架自动采集交互数据并训练。
Claw-R1 的意义在于:
它为 Agent Runtime 时代的强化学习训练提供了一个新的基础设施。
如果说:
- OpenClaw 解决的是 Agent 的 运行环境问题
那么:
- Claw-R1 解决的是 Agent 的 训练框架问题
两者结合,正是大模型强化学习第三阶段的核心体现:
Runtime RL —— 以真实环境反馈为奖励,让模型学会在现实中行动
在这种范式下,AI 不再只是学习生成文本,也不再只是完成孤立的可验证任务,而是学习:
如何在真实 Agent Runtime 中持续、稳定地完成复杂任务。
随着 Agent 技术的发展,大模型系统正在逐渐演化为:
"推理 + 工具 + 环境 + 学习" 的闭环系统。
在这样的系统中:
- Agent Runtime 提供 执行环境
- RLVR 提供 学习机制
- Claw-R1 提供 训练基础设施
这些技术的结合,很可能会成为下一代 Agentic AI 系统的基础架构。
而 Claw-R1,正是这一方向上的一次重要探索。
-
Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning
-
Agent-R1:中国科大认知全重实验室多轮交互强化学习训练框架(https://github.com/0russwest0/Agent-R1)
-
VERL:字节跳动开源的高性能 RLHF 训练框架(HybridFlow)
-
Agent Lightning:面向 Agentic 场景的分布式 RL 训练基础设施