2 min read

NVIDIA Run:ai GPU内存交换技术:平衡LLM推理成本与响应速度

NVIDIA Run:ai GPU内存交换技术:平衡LLM推理成本与响应速度

NVIDIA Run:ai 近期发布了GPU内存交换(模型热交换)技术,旨在解决大规模部署大型语言模型(LLM)时面临的成本与响应速度双重挑战。该技术通过动态管理GPU内存,允许多个模型共享同一GPU,即使其总内存需求超出GPU容量。

该技术的核心在于动态内存卸载与快速激活。未被请求的模型会从GPU内存转移至CPU内存,释放GPU资源;当有新请求时,模型能迅速被换回GPU内存,实现低延迟响应。这种机制使得可在不增加硬件数量的情况下,运行更多模型副本,有效降低了因应对峰值流量而过度配置GPU带来的高昂成本。

通过在NVIDIA L40S GPU上进行的基准测试显示,与“从零扩展”(Scale from zero)需要数分钟的首次响应时间(TTFT)相比,GPU内存交换技术可将TTFT显著缩短至2-3秒。这一表现比“从零扩展”快50-66倍,且仅比模型常驻GPU的“热模型”(warm models)基线场景略有延迟,后者成本高昂。

GPU内存交换技术在成本效益和性能之间找到了理想的平衡点。它支持组织在维持严格的服务水平协议(SLA)的同时,将工作负载整合到更少的GPU上,显著降低闲置成本,并确保用户体验的响应速度,为AI基础设施的优化提供了新的解决方案。

查看消息来源

订阅情报