3 min read

NVIDIA CPO光子交换机:AI数据中心网络的能效与可靠性革新

人工智能(AI)的飞速发展正在重塑数据中心的网络架构。NVIDIA通过推出集成了共封装光学(CPO)技术的Quantum-X InfiniBand和Spectrum-X Ethernet系列光子交换机,为AI训练和推理提供了更高带宽、更低延迟、更优能效和更高可靠性的网络解决方案。与传统采用可插拔光模块的交换机相比,CPO技术将光电转换集成在交换机芯片封装内,大幅减少了信号传输损耗、功耗和潜在故障点,从而构建了更高效、更具扩展性的AI数据中心,为Agentic AI的未来奠定基础。Quantum-X和Spectrum-X系列交换机预计分别于2026年初和2026年下半年上市,标志着AI网络基础设施进入新纪元。

AI数据中心的基础设施已从传统的CPU中心化、服务器机架内集成Tier 1交换机的模式,转向GPU驱动、超密集计算、跨数据中心互联的AI工厂模式。这种转变要求网络具备极高的带宽和极低的延迟,促使Tier 1交换机移至行末,并使光网络成为连接服务器与交换机以及交换机之间的关键。传统的基于可插拔光模块的交换机,由于信号需经过多重电接口转换,导致高达22dB的电损耗,需要复杂的数字信号处理和更多的有源组件,从而显著增加了功耗(每接口高达30W)、散热需求和故障点。NVIDIA的CPO技术通过将光引擎直接集成到交换机封装内,将电损耗降至约4dB,并将功耗降至9W,极大地提高了信号完整性、可靠性和能效。

NVIDIA的Quantum-X InfiniBand光子交换机提供高达115 Tb/s的交换容量,支持144个800Gb/s端口,并集成了第四代SHARP技术,提供14.4 TFLOPS的片内计算能力,采用液冷设计以优化散热。Spectrum-X Ethernet光子交换机则专为生成式AI和大规模LLM训练优化,提供高达409.6 Tb/s的交换容量和512个800Gb/s端口,相比前代架构实现了3.5倍的能效提升和10倍的可靠性增强。这些CPO解决方案通过精简信号路径,减少了3.5倍的功耗和10倍的故障点,同时加速了部署和上线时间。NVIDIA正携手生态合作伙伴,推动CPO技术在AI基础设施中的规模化应用,以满足数据中心对部署速度和可靠性的严苛要求。

Scaling AI Factories with Co-Packaged Optics for Better Power Efficiency | NVIDIA Technical Blog
As artificial intelligence redefines the computing landscape, the network has become the critical backbone shaping the data center of the future. Large language model training performance is…
订阅情报