InfiniBand:AI时代高性能网络的安全基石
InfiniBand通过其软件定义的、集中管理的网络架构,为AI、HPC和超大规模云计算等高性能计算场景提供了强大的多层级安全保障。其核心在于通过Subnet Manager(SM)集中执行全局策略、优化路由和监控健康状况,从而避免了传统网络中端点独立决策带来的配置错误和安全漏洞。
InfiniBand的安全机制不依赖于对每一字节进行加密以牺牲速度,而是采用了专用的密钥机制,如M_Key、P_Key、Q_Key、L_Key和R_Key,这些密钥在网络适配器或交换机ASIC硬件层面强制执行,确保了只有授权设备和可信应用能够参与网络通信,并保护了RDMA操作中的内存访问。每个节点和端口都拥有硬编码的全局唯一标识符(GUID),结合SM支持的静态拓扑文件和允许的SM GUID列表,有效防止了欺骗、冒充和劫持。
InfiniBand的硬件级分区比以太网VLAN更强大,通过NVIDIA Unified Fabric Manager(UFM)定义分区成员,在硅层面强制执行严格的流量隔离。其可靠连接(RC)、不可靠数据报(UD)和动态连接(DC)等传输层均在硬件中实现,消除了软件栈的潜在漏洞。RDMA操作通过R_Keys与特定的保护域和队列对绑定,防止未经授权的内存读写。
此外,InfiniBand的管理机制也内建了安全考量,通过SA_Key、VS_Key、C_Key、N2N_Key和AM_Key等保护管理数据报(MAD)。设备上的管理代理会发送异常事件的告警(traps)至SM或UFM,提供实时的可见性。管理员可通过UFM或REST API实现自动化管理、策略控制和审计,通过启用端口密钥、强制分区、使用SMP防火墙、维护静态拓扑文件和定期更新MAD密钥等最佳实践,进一步加固InfiniBand环境的安全。

网友讨论