2 min read

NVIDIA Run:ai登陆AWS Marketplace,重塑云端GPU基础设施管理新范式

NVIDIA Run:ai现已全面支持AWS Marketplace,为企业在云原生、容器化环境中管理GPU基础设施提供了一站式解决方案。该平台专为Kubernetes环境设计,充当GPU基础设施的控制平面,旨在简化AI工作负载的管理,提升速度、效率和治理能力。

NVIDIA Run:ai通过引入虚拟GPU池,实现GPU资源的动态、策略驱动调度。其核心能力包括:支持将单个GPU分割用于多个推理任务或Jupyter Notebook,根据任务优先级、队列和可用性进行动态调度,区分训练、调优和推理等不同阶段的工作负载,以及通过公平共享或硬配额机制保障团队或项目的资源。

在AWS上,NVIDIA Run:ai与Amazon EC2 GPU实例、Amazon EKS、Amazon SageMaker HyperPod、AWS IAM及Amazon CloudWatch等服务深度集成。它能调度AI工作负载至配备NVIDIA GPU的EC2实例,最大化GPU利用率,支持多GPU、多节点训练,并实现时间切片和GPU超额认购。与EKS的无缝集成提供了专为AI工作负载优化的GPU资源管理层,并兼容NVIDIA GPU Operator。此外,它还能扩展至SageMaker HyperPod,实现跨本地及云环境的AI基础设施整合,并通过CloudWatch提供GPU使用指标和告警,通过IAM确保安全访问和合规性。

该解决方案能够显著提升GPU利用率,降低管理复杂性,为企业在AWS上加速AI创新提供了坚实基础,尤其在多团队协作场景下,能有效平衡资源分配与成本控制,实现更快的AI开发迭代。

Accelerate AI Model Orchestration with NVIDIA Run:ai on AWS | NVIDIA Technical Blog
When it comes to developing and deploying advanced AI models, access to scalable, efficient GPU infrastructure is critical. But managing this infrastructure across cloud-native…
订阅情报