3 min read

AI推理“军备竞赛”:NVIDIA“Think SMART”框架重塑智能制造新格局

AI推理正成为各行各业的核心驱动力,从智能助手到自动驾驶,其应用范围呈爆炸式增长。先进AI模型的复杂性日益提升,导致每次交互生成的token数量激增,对大规模智能制造的基础设施提出了严峻挑战。AI工厂的建设和高效推理的部署,是应对这一趋势的关键。为实现推理的最大效率,需遵循“Think SMART”框架:S(Scale and complexity,规模与复杂性)、M(Multidimensional performance,多维度性能)、A(Architecture and software,架构与软件)、R(Return on investment driven by performance,性能驱动的投资回报)和T(Technology ecosystem and install base,技术生态与装机量)。

AI模型的规模和复杂性不断演进,要求推理能力跟上多样化的工作负载,从快速单次查询到涉及数百万token的多步复杂推理。这带来了资源强度、延迟、吞吐量、能耗和成本等方面的挑战。为应对此复杂性,CoreWeave、Dell Technologies、Google Cloud和Nebius等合作伙伴正大规模扩展基础设施,构建新的AI工厂。

多维度性能是衡量AI推理效率的关键。AI工厂需具备灵活性,以服务于广泛的用例,同时平衡准确性、延迟和成本。例如,实时语音转文本需要极低延迟和高吞吐量,而复杂问题的批量生成则侧重于吞吐量。NVIDIA的推理平台旨在平衡延迟与吞吐量,为GPT-OSS、DeepSeek-R1和Llama 3.1等模型提供支持。

从硬件到软件的协同优化是实现高性能AI推理的基础。NVIDIA Blackwell平台为AI工厂的推理生产力带来了50倍的提升,GB200 NVL72系统通过NVLink互联,实现了40倍的收入潜力、30倍的吞吐量和25倍的能效提升。NVFP4等低精度格式进一步优化了能效和带宽需求。

全栈推理平台是支撑AI工厂规模化推理的关键。NVIDIA Dynamo平台提供动态自动扩展能力,优化GPU分配和数据流,性能提升高达4倍。TensorRT-LLM等框架简化了AI部署流程。NVIDIA Nemotron等模型家族和NVIDIA NIM微服务,共同构成了云提供商和企业进行大规模推理的基础。

性能是驱动AI投资回报的最大因素。NVIDIA Hopper到Blackwell架构的性能提升,能在相似功耗下带来高达10倍的利润增长。通过堆栈优化,每百万token的成本已降低80%。技术生态和开源模型的广泛应用,如Llama、Gemma等,加速了AI应用的开发和部署,NVIDIA通过GitHub和Hugging Face等平台,积极贡献开源项目,赋能开发者。

Think SMART: How to Optimize AI Factory Inference Performance
The Think SMART framework helps enterprises strike the right balance of accuracy, latency and return on investment when deploying AI at AI factory scale.
订阅情报