2 min read

NVIDIA NCCL 2.27:重塑大规模 AI 通信,驱动推理与训练新纪元

NVIDIA 在其最新的 NCCL 2.27 版本中,为大规模 AI 工作负载引入了关键性通信优化,旨在大幅提升 GPU 间的通信效率和系统稳定性。此次更新的核心在于降低推理延迟、增强训练韧性以及提升开发者可观测性。

NCCL 2.27 重点引入了对称内存支持,通过优化跨 GPU 的内存缓冲区通信,显著降低了小消息尺寸下的延迟,最高可达 7.6 倍。同时,新增的 Direct NIC 支持允许 GPU 直接与网络接口卡(NIC)通信,绕过 CPU,从而实现高达 800 Gb/s 的网络带宽,这对高吞吐量的推理和训练至关重要。此外,对 NVLink 和 InfiniBand SHARP 的支持扩展至 AllGather 和 ReduceScatter 操作,通过将数据聚合卸载到网络硬件,显著减少了 GPU 上的计算资源占用,提升了大规模训练的伸缩性。

为应对大规模训练中 GPU 故障问题,NCCL 2.27 推出了 Communicator Shrink 功能,允许在训练过程中动态排除故障 GPU,通过重构通信器来维持训练的连续性,并提供了默认模式和错误恢复模式两种处理方式。开发者工具方面,NCCL 2.27 改进了事件同步和 GPU 内核事件的精度,并增强了通信器命名等元数据支持,为诊断和优化大规模 AI 工作负载提供了更深入的洞察。

此次更新还包括对跨数据中心通信的早期支持,预示着未来大规模分布式 AI 应用将突破地理限制,实现更广泛的协同。NCCL 2.27 的这些进步,为构建更高效、更可靠、更易于观察的大规模 AI 系统奠定了坚实基础。

Enabling Fast Inference and Resilient Training with NCCL 2.27 | NVIDIA Technical Blog
As AI workloads scale, fast and reliable GPU communication becomes vital, not just for training, but increasingly for inference at scale. The NVIDIA Collective Communications Library (NCCL) delivers…
订阅情报