2 min read

NVIDIA Spectrum-XGS Ethernet:解锁跨数据中心AI算力协同新维度

NVIDIA Spectrum-XGS Ethernet:解锁跨数据中心AI算力协同新维度

AI算力规模化训练和推理面临数据中心物理极限的挑战,包括电力、散热和空间。为突破此瓶颈,需要将分散的数据中心资源整合,实现跨地域协同。传统长距离以太网方案为保证数据传输,常采用深度缓冲交换机,但这会导致高延迟和不可预测的抖动,严重影响对网络同步性要求极高的AI工作负载。

NVIDIA推出的Spectrum-XGS以太网技术,专为“Scale-Across”网络场景设计,打破了数据中心间的距离限制。该技术基于现有的Spectrum-X以太网交换机和ConnectX-8 SuperNICs,通过距离感知算法优化拥塞控制和路由,有效管理长距离通信的延迟。其核心在于能够将不同规模、不同地域的数据中心整合成一个统一的AI工厂。

Spectrum-XGS以太网的关键在于其距离感知算法和端到端的遥测技术。通过识别通信设备间的距离,系统能智能调整负载均衡和拥塞控制策略,避免了深度缓冲带来的额外延迟和抖动。这种统一的网络架构和优化的算法,使得跨越数百米乃至数百英里的数据中心能够无缝协同,实现AI训练和推理任务的性能隔离与高带宽保障。

相较于传统以太网,NVIDIA Spectrum-XGS在长距离AI工作负载上表现出显著优势,实测显示NCCL all-reduce带宽提升高达1.9倍,尤其在处理大型消息时性能提升更为明显,直接转化为更快的AI应用作业完成时间。通过消除距离对AI算力协同的限制,Spectrum-XGS技术增强了AI基础设施的资产通用性,显著提升了AI工厂的投资回报率。

查看消息来源

订阅情报