NVIDIA nvMatmulHeuristics:革新GEMM内核优化,大幅缩短编译与调优时间

NVIDIA发布了其GPU内核元参数优化模块nvMatmulHeuristics,旨在解决传统GEMM内核优化耗时过长的问题。
传统GEMM内核优化流程需要生成、编译并详尽调优数千种配置,耗时数小时,严重阻碍了其在JIT编译库(如Torch Inductor、OpenAI Triton)中的应用。nvMatmulHeuristics通过分析操作参数与硬件能力,预测一小组最优内核配置,大幅缩短了这一过程。
该模块与CUTLASS库集成,用户通过提供问题定义和硬件信息,即可快速获得一组高潜力内核配置。CUTLASS随后仅生成这组内核,并进行针对性自动调优,实现数小时到数十分钟的效率飞跃。
目前,nvMatmulHeuristics已进入早期试用阶段,支持Python和C++ API,并兼容NVIDIA Ampere、Ada、Hopper及Blackwell架构。实际测试表明,使用nvMatmulHeuristics可在极短时间内达到接近穷举搜索的性能水平,显著提升开发效率。
该方案为深度学习框架、编译器和内核库的性能与生产力带来了新的可能性,使得在JIT编译环境下实现高性能GEMM内核成为可能。
网友讨论