Polars GPU 引擎突破VRAM限制:UVM与多GPU流式执行解锁TB级数据处理新纪元
Polars 的 GPU 引擎现已集成 NVIDIA cuDF,大幅提升了量化金融、算法交易和欺诈检测等高风险领域的数据处理效率。为解决 GPU VRAM 有限的瓶颈,Polars 提供了两种关键策略。
统一虚拟内存 (UVM) 技术允许 GPU 将数据溢出至系统 RAM,从而在单个 GPU 上处理超出 VRAM 容量的数据集。此方法无需修改代码,但数据在系统 RAM 和 VRAM 间的迁移可能产生性能损耗。通过 NVIDIA RAPIDS Memory Manager (RMM) 可优化内存分配,显著降低这一开销,为处理中等规模超出 VRAM 的数据集提供了灵活高效的解决方案。
对于处理 PB 级(数百 GB 至 TB 级别)的大型数据集,Polars 引入了实验性的多 GPU 流式执行功能。该功能通过数据分区和跨多个 GPU 的并行处理,将工作负载分散执行。其核心是将 Polars 的内部表示图重写为批处理模式,并根据数据大小和可用工作节点进行分区。这种任务驱动的模型支持单 GPU 和多 GPU 执行,能在极短时间内处理海量数据,如在 PDS-H 基准测试中,3TB 数据集下的22个查询均在数秒内完成。
选择 UVM 还是多 GPU 流式执行,取决于具体的数据规模和硬件配置。UVM 适用于中等超出 VRAM 的数据,而多 GPU 流式执行则专为 TB 级数据的分布式处理而设计,以实现卓越的性能。
How to Work with Data Exceeding VRAM in the Polars GPU Engine | NVIDIA Technical Blog
In high-stakes fields such as quant finance, algorithmic trading, and fraud detection, data practitioners frequently need to process hundreds of gigabytes (GB) of data to make quick…

网友讨论