24 Aug 2025 2 min read 人工智能 (AI)

AWS携手NVIDIA Dynamo，重塑LLM推理服务新纪元

AWS与NVIDIA的深度整合，通过NVIDIA Dynamo框架赋能，正重塑大规模语言模型（LLM）的推理服务格局。该框架现已全面支持Amazon EC2 P6实例（搭载NVIDIA Blackwell架构）及Amazon S3存储，并与Amazon EKS及AWS Elastic Fabric Adapter（EFA）实现无缝对接，为开发者提供了前所未有的性能、可扩展性和成本效益。

Dynamo的核心优势在于其先进的优化技术，包括将预填充与解码推理阶段分离至不同GPU以提升吞吐量（Disaggregated Serving），实现LLM感知路由以最大化KV缓存命中率并规避重复计算，以及将KV缓存卸载至更经济的存储层级以降低成本。这些特性共同作用，使得Dynamo在分布式LLM部署中表现卓越。

此次与AWS服务的深度整合尤为关键。通过将KV缓存卸载至Amazon S3，开发者得以释放宝贵的GPU内存，显著降低了GPU内存的压力和整体推理成本。与Amazon EKS的集成则简化了在Kubernetes环境中部署复杂LLM推理组件的流程，允许按需动态扩展以应对流量高峰。此外，对AWS EFA的支持进一步优化了节点间通信，对于采用稀疏专家混合（MoE）架构的大型LLM模型尤为重要，能够高效地在多个GPU节点间传输数据，加速了AI应用的生产上市时间。

当Dynamo与Blackwell驱动的Amazon EC2 P6实例结合时，性能提升尤为显著。P6实例配备的第五代Tensor Cores、FP4加速及翻倍的NVLink带宽，特别是GB200 NVL72服务器提供的130 TBps聚合带宽，能够有效应对MoE模型中广泛的专家并行解码操作所需的密集通信。这种软硬件协同优化，大幅提升了GPU利用率，降低了每美元的请求吞吐成本，为大规模AI工作负载的可持续增长奠定了基础。

订阅情报

推荐情报

CDC高层动荡与疫苗政策混乱：美国公共卫生面临信任危机

英伟达业绩指引稳健，AI主题驱动科技股上扬，降息预期重塑市场格局

AI重塑经典：NVIDIA RTX Remix引领游戏模组新浪潮

Anthropic默认使用消费者数据训练AI模型，用户需主动选择退出

英伟达财报洞察：AI增长势头与中国市场变数下的战略博弈