2 min read

CUDA 13.0:Tile编程与Arm统一,重塑GPU开发新范式

NVIDIA已发布CUDA Toolkit 13.0,此重大更新奠定了未来CUDA 13.X软件系列发展的基础,并提供对最新NVIDIA CPU和GPU的加速计算能力。本次更新引入了多项关键技术和改进,包括为CUDA引入基于Tile(瓦片)的编程模型,旨在通过更高层次的抽象提升开发者生产力与硬件效率,该模型能自然映射到Tensor Cores,确保代码的向前兼容性。

此外,CUDA 13.0实现了CUDA在Arm平台上的统一,开发者现在可以使用单一CUDA安装支持服务器级和嵌入式设备,从而简化跨平台开发和部署流程,显著降低CI/CD开销和潜在的配置不匹配问题。在性能优化方面,更新包括了对Blackwell GPU的cuBLAS、cuSPARSE、cuSOLVER等数学库的改进,以及NVCC编译器对ZStandard(ZStd)压缩算法的默认支持,以优化fatbin的压缩效率和减小二进制文件大小。

此次发布还包括对Python开发者的支持增强,提供了cuda.core的早期发布版本,简化了Python与CUDA平台间的交互。同时,更新了OS和平台支持,并对NVIDIA Nsight Developer Tools进行了优化,例如在Nsight Compute中新增了指令混合和记分板依赖表,以帮助开发者更精确地定位性能瓶颈。

在硬件支持上,CUDA 13.0继续增强对Blackwell架构GPU的支持,包括B200、GB200等系列,并为Jetson Thor平台引入了开源GPU驱动、统一虚拟内存(UVM)和Green contexts等特性。为适应硬件发展,CUDA 13.0移除了对Turing(compute capability 7.5)之前GPU架构的离线编译支持,并对vector types(如double4)进行了更新,引入了32字节对齐以适配Blackwell架构的256位加载/存储能力,并对cudaDeviceProp结构体进行了调整,移除了一些旧的属性字段。

What’s New and Important in CUDA Toolkit 13.0 | NVIDIA Technical Blog
The newest update to the CUDA Toolkit, version 13.0, features advancements to accelerate computing on the latest NVIDIA CPUs and GPUs. As a major release, it lays the foundation for all future…
订阅情报