2 min read

NVIDIA NeMo-RL:加速交互式AI与高性能推理模型的强化学习新引擎

NVIDIA NeMo-RL的发布标志着强化学习(RL)领域的一项重要进展,尤其是在推动交互式AI和语言模型能力方面。该开源库旨在简化从单GPU原型到大规模千GPU部署的RL流程,并支持如DPO和GRPO等流行算法。

NeMo-RL的核心优势在于其灵活的后端架构,能够无缝集成Hugging Face模型,并计划支持Megatron-Core以实现更高级的并行策略。通过vLLM后端进行生成,并可扩展至TensorRT-LLM等,确保了算法实现与具体后端细节的解耦,从而实现无缝扩展。

利用NeMo-RL复现DeepScaleR-1.5B的Qwen-1.5B模型在AIME 2024数学基准上的训练过程,展现了其高效性。通过分阶段增加上下文长度(8K、16K、24K),该库在仅400步内实现了0.65的训练奖励,并在评估中超越了OpenAI O1模型。

NeMo-RL为研究人员和开发者提供了一个强大且可扩展的平台,加速了高性能推理模型的开发,并有望在多轮工具使用、人类偏好学习等交互式AI应用中发挥关键作用。

Reinforcement Learning with NVIDIA NeMo-RL: Reproducing a DeepScaleR Recipe Using GRPO | NVIDIA Technical Blog
Reinforcement learning (RL) is the backbone of interactive AI. It is fundamental for teaching agents to reason and learn from human preferences, enabling multiturn tool use, and much more.
订阅情报