3 min read

NVIDIA Run:ai v2.22:AI 工作负载管理的精细化与平台能力的全面跃升

NVIDIA Run:ai v2.22 引入了对 AI 工作负载管理和资源优化的重大增强,核心在于引入了灵活的工作负载模板,允许用户保存和复用配置,显著简化了提交流程并促进了标准化。同时,工作负载优先级管理得到扩展,提供预设优先级值和更广泛的配置选项,使研究人员和管理员能更精细地控制任务调度。

在用户体验方面,v2.22 允许用户自行管理凭证,并为分布式训练新增了可配置的 MPI 启动器行为,确保所有工作节点就绪后再启动,提升了稳定性。此外,支持对多个工作负载执行批量挂起/恢复操作,并为分布式训练的终端工作负载提供了更精细的 Pod 删除策略,优化了资源清理。

平台管理员层面,CLI v2 获得了显著增强,包括项目和部门支持、分布式训练主 Pod 的资源标志支持、以及列表命令的 Pagination 支持,提高了命令行操作的灵活性和效率。推理工作负载方面,支持通过 API 进行分布式推理,并为推理工作负载引入了新的超时控制和策略支持,同时支持通过 OIDC 客户端对推理端点进行应用级 API 访问。

在分析和监控方面,新增了工作负载类别功能,用于标准化分类,并提供了工作负载的挂起时间可见性。节点层面,增强了节点指标图表,并提供了更精细的节点池调度和资源控制选项。安全方面,支持批量删除访问规则,创建访问规则时可多选主体和范围,并引入了独立的、具有作用域权限的安全设置 API。此外,还支持通过 API 交换外部 IdP 令牌,增强了身份验证的集成能力。

安装方面,为 OpenShift 部署提供了专用 Prometheus 支持,并支持 S3 和 Git 集成的自定义 CA。系统要求方面,更新了对 Knative、OpenShift 和 Kubernetes 的版本支持。值得注意的是,Templates 特性已被弃用,推荐迁移至更强大的灵活工作负载模板。

What’s New in Version 2.22 | Run:ai Documentation
订阅情报