NVIDIA Blackwell Ultra架构引领LLM推理新标杆,MLPerf v5.1刷新性能纪录

最新MLPerf Inference v5.1基准测试结果揭示,NVIDIA Blackwell Ultra架构在大型语言模型(LLM)推理领域取得了显著突破。此次测试中,基于Blackwell Ultra的GB300 NVL72系统在DeepSeek-R1(一个拥有6710亿参数的MoE推理模型)上,实现了每GPU 5,842 tokens/秒的离线吞吐量和2,907 tokens/秒的服务器吞吐量,相较于Hopper架构分别提升了4.7倍和5.2倍,创下新的推理性能纪录。
此次性能飞跃得益于NVIDIA全栈技术栈的优化。通过广泛应用NVFP4(一种四位浮点格式)和FP8精度进行模型量化,显著减小了模型尺寸并提升了计算效率。同时,针对LLM推理中关键的KV缓存,也进行了FP8量化,进一步降低了内存占用并提高了性能。在并行技术方面,针对DeepSeek-R1的MoE特性,采用了混合专家并行和数据并行策略,并引入了Attention Data Parallelism Balance(ADP Balance)技术,以优化跨GPU的负载均衡,确保了高吞吐量和低首通时间。
在Llama 3.1 405B模型的交互式场景测试中,NVIDIA GB200 NVL72系统通过采用“分离式服务(Disaggregated Serving)”技术,将上下文处理和生成阶段解耦至不同的GPU或节点,实现了对每个阶段的独立优化。这一创新部署方式,相比传统的聚合服务模式,每GPU吞吐量提升近1.5倍,整体性能较Hopper架构提升超过5倍,有效满足了大型模型在低延迟、高吞吐量交互式场景下的严苛要求。
MLPerf Inference v5.1的最新结果不仅巩固了NVIDIA在AI推理领域的领先地位,也预示着随着模型规模和复杂度的不断增长,对高性能计算平台的需求将持续攀升。Blackwell Ultra架构及其配套的优化技术,为构建更高效、更具成本效益的AI工厂提供了关键支撑。
网友讨论