NVLink Fusion:解锁AI算力新边界,赋能超大规模定制化基础设施
AI模型的指数级增长正以前所未有的速度推高计算需求。从百万级到万亿级的参数量,以及混合专家(MoE)架构和测试时推理的引入,都对计算资源提出了严峻挑战。为应对这一趋势,AI系统正朝着大规模并行化策略演进,包括张量(Tensor)、流水线(Pipeline)和专家(Expert)并行。
为实现高效的AI推理部署,关键在于构建能够作为统一计算与内存池的大规模GPU集群。这要求通过内存语义扩展计算架构(Memory-semantic scale-up compute fabric)连接更大规模的GPU域。英伟达(NVIDIA)通过NVLink Fusion技术,将NVLink扩展技术(NVLink scale-up fabric technologies)的性能与广度引入,旨在满足日益增长的复杂AI模型需求。
英伟达自2016年推出NVLink以来,不断迭代创新。从最初克服PCIe局限,到2018年引入NVLink Switch实现300 GB/s的全连接带宽,再到第五代NVLink(2024年发布)支持72个GPU间1,800 GB/s的通信,其聚合带宽已达130 TB/s,较首代提升800倍。英伟达以年均三代的速度推进NVLink技术,与AI模型复杂度的指数级增长同步。
NVLink的性能表现离不开硬件与通信库(如NCCL)的协同。NCCL作为一个开源库,极大地加速了GPU间通信,并已深度集成至各大深度学习框架。在AI工厂的营收最大化方面,72-GPU的机架架构通过优化吞吐量/瓦特与延迟,显著提升了LLM推理性能。
NVLink Fusion为超大规模客户提供了对NVLink扩展技术的定制化访问。它允许客户将自研芯片(CPU和XPU)与英伟达NVLink扩展技术和机架规模架构集成,实现半定制化AI基础设施的部署。通过UCIe或NVLink-C2C等接口,NVLink Fusion能够兼容多种XPU和CPU配置,提供高度灵活性。结合开放计算项目(OCP)MGX机架解决方案和成熟的合作伙伴生态系统,NVLink Fusion能够加速客户的产品上市时间,满足其对高性能、可定制化AI基础设施的需求。

网友讨论