大模型进化的加速器：verl异步强化学习突破算力天花板-服务器专区

大模型进化的加速器：verl异步强化学习突破算力天花板

作者：陶然编辑：陶然 2026-06-03 16:56 IT168网站原创

　　当基础模型的参数规模触及万亿级，单纯堆砌算力进行预训练的边际效益正在递减。业界形成新的共识：真正的智能跃迁，更多来自强化学习驱动的自我进化与迭代。然而，强化学习传统同步训练节奏固化、效率受限，难以满足高速迭代需求。

　　如何破局？在昇腾AI开发者峰会2026上，来自verl社区的Maintainer侯正罡，给出了答案。他带来的主题演讲《verl异步强化学习的技术演进与昇腾实践》，揭示了行业突破算力瓶颈的关键路径，并向外界展示了verl社区与昇腾深度技术融合的最新成果。　　

verl社区Maintainer 侯正罡

　　传统强化学习训练的“不可能三角”

　　演讲开篇首先抛出了一个核心问题：为什么我们如此迫切地需要全异步强化学习？

　　这里侯正罡列举了一组数据：同步训练模式下使用DAPO算法训练一个32B的模型，单步总时长高达1700秒，而其中单纯等待样本生成（Rollout）就占了1200秒，占比超过70%。更极端的情况下，对于Qwen-235B这样的超大模型，单次Rollout时长30分钟，其中超过一半的时间都在处理少数几个长尾样本。而在一些更极端的任务中，单次的Rollout时间以小时计数。

　　而随着大模型效果的提升，模型的思维链（CoT）越来越长，工具调用和多轮对话也逐步参与到强化学习训练中，长尾问题愈发严重。关键在于：这种瓶颈无法通过简单加硬件来解决，同步训练难以实现有效的Scale Up。

　　这就像一场流水线生产，如果必须等所有工人都完成最慢的那道工序才能进入下一环节，整体的产出效率就被最慢的长尾所绑架。这就是传统同步训练面临的“不可能三角”：稳定性、算法精度与硬件效率难以兼得。所以异步不再是可选项，而是必选项。

　　演进：从“一步异步”到“完全异步”的架构涅槃

　　针对上述瓶颈，侯正罡分享了verl社区在过去一年中的核心技术演进路线，并非一蹴而就，而是经历了扎实的两步走。

　　01 One Step Off Policy——打破串行依赖

　　这是verl迈出异步训练的第一步。其核心思路并不复杂，将硬件资源池拆分为独立的生成池和训练池。当前步的训练数据来自上一步的生成结果，从而实现生成与训练的并行执行。

　　当然，这一模式也有其局限性：虽然效率有所提升，但生成参数与训练参数之间始终存在一步的滞后，灵活性受限。例如，如果环境突然发生变化，模型需要一步的延迟才能感知并调整。

　　02 Fully Async——构建“生产者-消费者”超级流水线

　　为了解决滞后问题，verl社区进一步推出了真正意义上的全异步架构——形象地说，就是现代工业中的"生产者-消费者"模式：

　　Rollouter（样本生产者）：一刻不停地生成新样本，存入一个巨大的数据缓冲池。

　　Trainer（样本消费者）：一刻不停地从池中捞取样本进行训练，更新模型参数。

　　两者完全并行，互不阻塞。与此同时，verl引入了异步样本陈旧度控制和Partial Rollout两大关键技术。前者通过算法调控允许一定程度的过时数据参与训练，后者则允许长序列在中断后自动恢复，避免因个别长尾任务卡死整个流程。

　　在算法层面，当前Fully Async支持使用Rollout log prob直接进行PPO的loss计算；在训推不一致问题较为严重的场景下，也提供了Decoupled PPO对loss进行修正。

　　效果是显著的。从7B模型到30B-A3B，再到235B模型的实验，以及涉及多轮工具调用的Agent场景中，均取得了至少2倍以上的性能收益；在某些长尾问题尤为突出的场景下，收益空间更加明显。

　　同时，社区针对Agent场景，首先构建了uni-agent作为Agentic RL的baseline, 供广大研究者进行效率和效果的验证。

　　重构：verl框架的“四架马车”

　　全异步架构的落地，绝非简单的逻辑改动。在实际生产中，用户的需求是多样的：有的场景仍然适合同步训练，有的需要异步训练来突破长尾瓶颈；有的环境下训练和推理共享同一组硬件资源，有的则需要将资源物理拆分为训练卡和推理卡。面对同步与异步双模式并行、共卡与分卡灵活部署的复杂需求，以及算法持续演进带来的使用变更，底层框架必须进行系统性的重构来提升灵活性和可扩展性。

　　围绕强化学习训练框架的四个核心组成部分，社区对verl进行了彻底的重塑：

　　训练引擎重构：抽象出通用的Model Engine，统一了监督微调和强化学习的训练代码，使用Tinker风格的API作为对外接口，屏蔽底层具体的引擎资源和并行分配逻辑, 让算法工程师可以专注于强化学习算法逻辑，而非工程细节。同时RL训练逻辑和引擎执行逻辑完全解耦，两者可以独立迭代。

　　推理引擎重构：采用统一的“分进程Server-Client”架构，重点支持了Partial Rollout的自动恢复，使得AgentLoop无需感知推理中断，极大提升了系统的灵活性，使得AgentLoop（即工具执行过程）无需感知推理中断。同时将AgentLoop的管理与LLM Server管理从代码层面进行解耦，进一步提升了框架灵活性。

　　参数同步引擎：抽象出可插拔的“CheckpointEngine”，这一层设计得非常巧妙，作为统一的权重同步抽象层，提供统一API来协调训练侧和推理侧之间的参数传输，屏蔽了底层通信细节，支持不同设备的集合通信、P2P或混合通讯方式，也可融入现有的开源参数同步方案。

　　消息传输重构：引入"TransferQueue"，实现了控制面与数据面分离，提高了整体集群带宽利用率，降低了端到端训练耗时。这是verl与昇腾深度合作的典范。

　　经过这一系列重构，verl的训练引擎、推理引擎、参数同步和消息传输四个核心模块各司其职又紧密配合，共同支撑起全异步架构的高效运转，也为后续的功能扩展和生态适配打下了坚实基础。

　　昇腾实践：TransferQueue——数据总线的胜利

　　演讲中，侯正罡特别感谢了华为的韩振宇同学，正是其实现了TransferQueue这一高性能数据引擎并回馈给verl社区。

　　TransferQueue具备四大核心特性：第一是零拷贝传输，避免数据序列化开销；第二是多协议扩展，支持TCP、RDMA等多种传输协议；第三是细粒度访问，支持子样本级别的读写操作和负载均衡；第四是生命周期管理，支持主动式资源回收和全景数据可见性。

　　数据最具说服力。在接入TransferQueue后，端到端性能提升高达49.1%。在压力测试中，8192个并发客户端跨4节点写入2TB数据，系统依然稳定如初。这证明了TransferQueue不仅是verl的关键基础设施，更是面向大规模多模态数据和长序列时代的数据传输标准解决方案。目前，该项目已独立开源并原生支持verl，这是昇腾对AI框架生态的重要贡献。

　　生态与昇腾全面兼容

　　除了以上提到的核心技术，当前在底层硬件支持上，VeRL框架的异步训练逻辑已原生支持昇腾的硬件，其他国产芯片还是积极适配中。在推理侧，异步训练也支持了主流的推理引擎如vLLM和SGLang。同时，训练框架也从FSDP覆盖到了Megatron和MindSpeed。这意味着基于昇腾硬件的开发者，可以无缝利用verl框架调用MindSpeed加速库，享受异步训练的加速体验。

　　展望未来，verl社区不仅会积极与业界主流的软硬件进行适配，同时也会在功能生态上持续建设，包括Agent gateway、弹性的能力调度、on policy distillation、概率计算独立化、KV Cache感知负载均衡、低精度算力栈、权重传输优化、故障自愈容错、多轨迹Rollout以及推测解码协同训练等方向上，社区也会持续进行优化和完善。这些方向直指大规模强化学习训练中的生产级痛点，显示出verl社区走向工业化的决心。

　　笔者观察：异步，打开大模型进化的“时间窗口”

　　在模型推理代价日益昂贵的今天，是否支持高效的异步训练，已成为决定大模型迭代速度的关键。verl社区与昇腾的深度实践，不仅验证了Fully Async架构在解决长尾瓶颈上的巨大优势，更通过TransferQueue等联合创新，重塑了强化学习框架的数据流动范式。

　　对于广大AI开发者而言，这无疑是一个强烈的信号：当硬件的峰值算力遇到瓶颈时，系统架构与软件的协同创新，正在打开一个新的“时间窗口”。verl异步强化学习的技术演进，正是那把帮助我们突破算力天花板、加速模型迈向通用人工智能的关键钥匙。

　　未来，随着verl与昇腾合作的持续深入以及更多开发者的参与实践，一个更高效、更智能、更开放的大模型后训练时代，正在加速到来。

关注我们