当基础模型的参数规模触及万亿级,单纯堆砌算力进行预训练的边际效益正在递减。业界形成新的共识:真正的智能跃迁,更多来自强化学习驱动的自我进化与迭代。然而,强化学习传统同步训练节奏固化、效率受限,难以满足高速迭代需求。
如何破局?在昇腾AI开发者峰会2026上,来自verl社区的Maintainer侯正罡,给出了答案。他带来的主题演讲《verl异步强化学习的技术演进与昇腾实践》,揭示了行业突破算力瓶颈的关键路径,并向外界展示了verl社区与昇腾深度技术融合的最新成果。
verl社区Maintainer 侯正罡
传统强化学习训练的“不可能三角”
演讲开篇首先抛出了一个核心问题:为什么我们如此迫切地需要全异步强化学习?
这里侯正罡列举了一组数据:同步训练模式下使用DAPO算法训练一个32B的模型,单步总时长高达1700秒,而其中单纯等待样本生成(Rollout)就占了1200秒,占比超过70%。更极端的情况下,对于Qwen-235B这样的超大模型,单次Rollout时长30分钟,其中超过一半的时间都在处理少数几个长尾样本。而在一些更极端的任务中,单次的Rollout时间以小时计数。
而随着大模型效果的提升,模型的思维链(CoT)越来越长,工具调用和多轮对话也逐步参与到强化学习训练中,长尾问题愈发严重。关键在于:这种瓶颈无法通过简单加硬件来解决,同步训练难以实现有效的Scale Up。
这就像一场流水线生产,如果必须等所有工人都完成最慢的那道工序才能进入下一环节,整体的产出效率就被最慢的长尾所绑架。这就是传统同步训练面临的“不可能三角”:稳定性、算法精度与硬件效率难以兼得。所以异步不再是可选项,而是必选项。
演进:从“一步异步”到“完全异步”的架构涅槃
针对上述瓶颈,侯正罡分享了verl社区在过去一年中的核心技术演进路线,并非一蹴而就,而是经历了扎实的两步走。
01 One Step Off Policy——打破串行依赖
这是verl迈出异步训练的第一步。其核心思路并不复杂,将硬件资源池拆分为独立的生成池和训练池。当前步的训练数据来自上一步的生成结果,从而实现生成与训练的并行执行。
当然,这一模式也有其局限性:虽然效率有所提升,但生成参数与训练参数之间始终存在一步的滞后,灵活性受限。例如,如果环境突然发生变化,模型需要一步的延迟才能感知并调整。
02 Fully Async——构建“生产者-消费者”超级流水线
为了解决滞后问题,verl社区进一步推出了真正意义上的全异步架构——形象地说,就是现代工业中的"生产者-消费者"模式:
Rollouter(样本生产者):一刻不停地生成新样本,存入一个巨大的数据缓冲池。
Trainer(样本消费者):一刻不停地从池中捞取样本进行训练,更新模型参数。
两者完全并行,互不阻塞。与此同时,verl引入了异步样本陈旧度控制和Partial Rollout两大关键技术。前者通过算法调控允许一定程度的过时数据参与训练,后者则允许长序列在中断后自动恢复,避免因个别长尾任务卡死整个流程。
在算法层面,当前Fully Async支持使用Rollout log prob直接进行PPO的loss计算;在训推不一致问题较为严重的场景下,也提供了Decoupled PPO对loss进行修正。
效果是显著的。从7B模型到30B-A3B,再到235B模型的实验,以及涉及多轮工具调用的Agent场景中,均取得了至少2倍以上的性能收益;在某些长尾问题尤为突出的场景下,收益空间更加明显。
同时,社区针对Agent场景,首先构建了uni-agent作为Agentic RL的baseline, 供广大研究者进行效率和效果的验证。
重构:verl框架的“四架马车”
全异步架构的落地,绝非简单的逻辑改动。在实际生产中,用户的需求是多样的:有的场景仍然适合同步训练,有的需要异步训练来突破长尾瓶颈;有的环境下训练和推理共享同一组硬件资源,有的则需要将资源物理拆分为训练卡和推理卡。面对同步与异步双模式并行、共卡与分卡灵活部署的复杂需求,以及算法持续演进带来的使用变更,底层框架必须进行系统性的重构来提升灵活性和可扩展性。
围绕强化学习训练框架的四个核心组成部分,社区对verl进行了彻底的重塑:
训练引擎重构:抽象出通用的Model Engine,统一了监督微调和强化学习的训练代码,使用Tinker风格的API作为对外接口,屏蔽底层具体的引擎资源和并行分配逻辑, 让算法工程师可以专注于强化学习算法逻辑,而非工程细节。同时RL训练逻辑和引擎执行逻辑完全解耦,两者可以独立迭代。
推理引擎重构:采用统一的“分进程Server-Client”架构,重点支持了Partial Rollout的自动恢复,使得AgentLoop无需感知推理中断,极大提升了系统的灵活性,使得AgentLoop(即工具执行过程)无需感知推理中断。同时将AgentLoop的管理与LLM Server管理从代码层面进行解耦,进一步提升了框架灵活性。
参数同步引擎:抽象出可插拔的“CheckpointEngine”,这一层设计得非常巧妙,作为统一的权重同步抽象层,提供统一API来协调训练侧和推理侧之间的参数传输,屏蔽了底层通信细节,支持不同设备的集合通信、P2P或混合通讯方式,也可融入现有的开源参数同步方案。
消息传输重构:引入"TransferQueue",实现了控制面与数据面分离,提高了整体集群带宽利用率,降低了端到端训练耗时。这是verl与昇腾深度合作的典范。
经过这一系列重构,verl的训练引擎、推理引擎、参数同步和消息传输四个核心模块各司其职又紧密配合,共同支撑起全异步架构的高效运转,也为后续的功能扩展和生态适配打下了坚实基础。
昇腾实践:TransferQueue——数据总线的胜利
演讲中,侯正罡特别感谢了华为的韩振宇同学,正是其实现了TransferQueue这一高性能数据引擎并回馈给verl社区。
TransferQueue具备四大核心特性:第一是零拷贝传输,避免数据序列化开销;第二是多协议扩展,支持TCP、RDMA等多种传输协议;第三是细粒度访问,支持子样本级别的读写操作和负载均衡;第四是生命周期管理,支持主动式资源回收和全景数据可见性。
数据最具说服力。在接入TransferQueue后,端到端性能提升高达49.1%。在压力测试中,8192个并发客户端跨4节点写入2TB数据,系统依然稳定如初。这证明了TransferQueue不仅是verl的关键基础设施,更是面向大规模多模态数据和长序列时代的数据传输标准解决方案。目前,该项目已独立开源并原生支持verl,这是昇腾对AI框架生态的重要贡献。
生态与昇腾全面兼容
除了以上提到的核心技术,当前在底层硬件支持上,VeRL框架的异步训练逻辑已原生支持昇腾的硬件,其他国产芯片还是积极适配中。在推理侧,异步训练也支持了主流的推理引擎如vLLM和SGLang。同时,训练框架也从FSDP覆盖到了Megatron和MindSpeed。这意味着基于昇腾硬件的开发者,可以无缝利用verl框架调用MindSpeed加速库,享受异步训练的加速体验。
展望未来,verl社区不仅会积极与业界主流的软硬件进行适配,同时也会在功能生态上持续建设,包括Agent gateway、弹性的能力调度、on policy distillation、概率计算独立化、KV Cache感知负载均衡、低精度算力栈、权重传输优化、故障自愈容错、多轨迹Rollout以及推测解码协同训练等方向上,社区也会持续进行优化和完善。这些方向直指大规模强化学习训练中的生产级痛点,显示出verl社区走向工业化的决心。
笔者观察:异步,打开大模型进化的“时间窗口”
在模型推理代价日益昂贵的今天,是否支持高效的异步训练,已成为决定大模型迭代速度的关键。verl社区与昇腾的深度实践,不仅验证了Fully Async架构在解决长尾瓶颈上的巨大优势,更通过TransferQueue等联合创新,重塑了强化学习框架的数据流动范式。
对于广大AI开发者而言,这无疑是一个强烈的信号:当硬件的峰值算力遇到瓶颈时,系统架构与软件的协同创新,正在打开一个新的“时间窗口”。verl异步强化学习的技术演进,正是那把帮助我们突破算力天花板、加速模型迈向通用人工智能的关键钥匙。
未来,随着verl与昇腾合作的持续深入以及更多开发者的参与实践,一个更高效、更智能、更开放的大模型后训练时代,正在加速到来。