NVIDIA ProRL v2:延长强化学习重塑LLM能力边界
NVIDIA Research发布的ProRL v2,旨在探索延长强化学习(RL)训练对大型语言模型(LLMs)的影响,并已实现新的SOTA性能。该框架通过数千个RL步骤,在数学、代码生成和推理等多个领域推动了LLMs能力的边界。
ProRL v2通过引入KL正则化信任域、周期性参考策略重置、以及调度余弦长度惩罚等技术,显著提升了训练的稳定性和输出的简洁性,克服了传统RL方法回报递减和不稳定的局限。其核心在于Proximal Policy Optimization(PPO-Clip)与REINFORCE++基线的结合,通过Clip-Higher和Dynamic Sampling等方法鼓励探索并减少噪声,从而实现更高效的学习。
实验结果表明,ProRL v2在1.5B参数模型上实现了持续的、非平凡的性能提升,超越了基线模型和先前版本的ProRL。尤其在基线模型常出现失败的任务上,ProRL展现了强大的泛化能力和真正的创新性,证明了延长RL训练是扩展LLMs推理潜力的有效途径。
Scaling LLM Reinforcement Learning with Prolonged Training Using ProRL v2 | NVIDIA Technical Blog
Currently, one of the most compelling questions in AI is whether large language models (LLMs) can continue to improve through sustained reinforcement learning (RL), or if their capabilities will…

网友讨论