英伟达Blackwell Ultra架构重塑AI推理性能,MLPerf v5.1基准测试树立新标杆

英伟达最新发布的GB300 NVL72系统,基于Blackwell Ultra架构,在MLPerf Inference v5.1推理基准测试中取得了突破性进展。相较于基于Blackwell的GB200 NVL72系统,其DeepSeek-R1推理吞吐量提升了1.4倍。Blackwell Ultra架构通过增加1.5倍的NVFP4 AI计算能力和2倍的注意力层加速,并提供每GPU高达288GB的HBM3e内存,进一步巩固了英伟达在AI推理领域的领先地位。
此次英伟达平台还在MLPerf Inference v5.1新增的数据中心基准测试中,包括DeepSeek-R1、Llama 3.1 405B Interactive等,均创下性能记录,并继续保持在所有MLPerf数据中心基准测试中的每GPU记录。全栈协同设计是实现这些优异成绩的关键,包括在硬件层面加速NVFP4数据格式,以及通过TensorRT Model Optimizer软件和TensorRT-LLM库对模型进行优化,从而在满足精度要求的同时实现更高性能。
通过解耦服务技术,将大语言模型推理中的上下文处理与生成任务独立优化,英伟达GB200 NVL72系统在Llama 3.1 405B Interactive基准测试中实现了近50%的每GPU性能提升。英伟达此次还首次采用NVIDIA Dynamo推理框架进行提交。包括Azure、CoreWeave、Dell Technologies等在内的众多合作伙伴也利用英伟达Blackwell和Hopper平台取得了优异成绩,这预示着市场领先的推理性能将通过主流云服务提供商和服务器制造商普及,为部署AI应用的组织带来更低的总体拥有成本和更高的投资回报。
网友讨论