2 min read

AWS携手NVIDIA Dynamo,重塑LLM推理服务新纪元

AWS与NVIDIA的深度整合,通过NVIDIA Dynamo框架赋能,正重塑大规模语言模型(LLM)的推理服务格局。该框架现已全面支持Amazon EC2 P6实例(搭载NVIDIA Blackwell架构)及Amazon S3存储,并与Amazon EKS及AWS Elastic Fabric Adapter(EFA)实现无缝对接,为开发者提供了前所未有的性能、可扩展性和成本效益。

Dynamo的核心优势在于其先进的优化技术,包括将预填充与解码推理阶段分离至不同GPU以提升吞吐量(Disaggregated Serving),实现LLM感知路由以最大化KV缓存命中率并规避重复计算,以及将KV缓存卸载至更经济的存储层级以降低成本。这些特性共同作用,使得Dynamo在分布式LLM部署中表现卓越。

此次与AWS服务的深度整合尤为关键。通过将KV缓存卸载至Amazon S3,开发者得以释放宝贵的GPU内存,显著降低了GPU内存的压力和整体推理成本。与Amazon EKS的集成则简化了在Kubernetes环境中部署复杂LLM推理组件的流程,允许按需动态扩展以应对流量高峰。此外,对AWS EFA的支持进一步优化了节点间通信,对于采用稀疏专家混合(MoE)架构的大型LLM模型尤为重要,能够高效地在多个GPU节点间传输数据,加速了AI应用的生产上市时间。

当Dynamo与Blackwell驱动的Amazon EC2 P6实例结合时,性能提升尤为显著。P6实例配备的第五代Tensor Cores、FP4加速及翻倍的NVLink带宽,特别是GB200 NVL72服务器提供的130 TBps聚合带宽,能够有效应对MoE模型中广泛的专家并行解码操作所需的密集通信。这种软硬件协同优化,大幅提升了GPU利用率,降低了每美元的请求吞吐成本,为大规模AI工作负载的可持续增长奠定了基础。

NVIDIA Dynamo Adds Support for AWS Services to Deliver Cost-Efficient Inference at Scale | NVIDIA Technical Blog
Amazon Web Services (AWS) developers and solution architects can now take advantage of NVIDIA Dynamo on NVIDIA GPU-based Amazon EC2, including Amazon EC2 P6 accelerated by NVIDIA Blackwell…
订阅情报