NVIDIA Spectrum-X重塑AI工厂:北南向网络加速数据流

AI基础设施的核心在于数据与计算的协同。随着Agentic AI系统日益复杂,多模型交互、实时决策及外部知识调用成为常态,企业面临海量数据快速、智能、可靠传输的严峻挑战。GPU间(东西向)通信优化已久,但模型加载、存储I/O及推理查询等北南向网络同样关键,其性能瓶颈直接影响AI系统的响应速度。NVIDIA Enterprise RAs(企业参考架构)提供了构建高性能AI工厂的蓝图,其中Spectrum-X以太网凭借其在加速北南向数据流方面的能力,尤其是在结合BlueField-3 DPUs的数据密集型AI场景中,展现出显著价值。传统以太网在处理加速AI和HPC工作负载时,常因规模、数据流和敏感性不足而引入延迟和拥塞。AI模型训练中的数据检查点,以及推理过程中向量数据库的实时检索,均高度依赖高效的北南向连接。Agentic AI从静态推理转向多轮、多代理交互时,北南向网络需求将呈指数级增长。
Spectrum-X以太网通过自适应路由和遥测技术,有效消除拥塞,提升吞吐量并降低AI运行时和检索密集型工作负载的延迟,将网络转变为无损AI数据存储和移动的 fabric。其VRF(虚拟路由与转发)和QoS(服务质量)等特性,实现了东西向与北南向流量的逻辑隔离和优先级排序,确保了跨AI工作负载的稳定性能。对于数据中心规模的AI工厂,融合网络设计可整合计算与存储流量,简化了运营并优化了性能。而对于大型多租户环境,则可能需要物理隔离的网络模型。Enterprise RAs为从小型集群到大规模部署提供明确的部署路径,指导企业构建可扩展、安全且高性能的AI工厂。
在AI工厂的网络编排中,NVIDIA SuperNICs专为东西向GPU间通信设计,提供高达800Gb/s的带宽。BlueField-3 DPUs则专注于北南向流量,通过卸载、加速和分离存储管理、遥测及网络安全任务,释放CPU资源用于核心AI处理。这种SuperNICs与DPUs的协同工作,确保了AI工厂内部计算的高效路由与外部数据流的顺畅输入。在企业级AI应用中,如结合RAG(检索增强生成)的Agentic AI系统,用户查询需要快速从外部向量数据库检索相关上下文。Spectrum-X以太网优化的数据路径,通过RoCE(RDMA over Converged Ethernet)协议,显著降低了模型获取嵌入向量的延迟,提高了响应速度和精度。从用户查询进入,经DPU处理,通过Spectrum-X网络访问存储,再返回GPU完成推理,整个流程的效率提升,直接转化为更快的决策和更佳的用户体验,为企业带来可观的业务价值。
网友讨论