NVIDIA Nemotron Nano 2 9B:边缘AI推理的性能与成本双重突破
NVIDIA推出了Nemotron Nano 2 9B,一款专为边缘AI和企业级推理设计的开源模型。该模型采用混合Transformer-Mamba架构,实现了在同等参数规模下超越纯Transformer模型的性能,并引入了可配置的“思考预算”功能,允许用户精细控制模型的推理深度,从而在保证高准确率的同时,显著降低成本并优化响应速度。
Nemotron Nano 2 9B在数学、编程、科学等推理任务上展现出同类领先的准确性。其混合架构通过结合Mamba的线性时间复杂度和Transformer的全局信息捕捉能力,实现了高达6倍于同级别模型的吞吐量。关键的“思考预算”特性使用户能够通过控制内部推理的“思考”Token数量,将推理成本最高降低60%,这对于需要低延迟和成本效益的客户服务、分析助手及边缘设备部署场景尤为重要。
该模型已在Hugging Face上开放权重,并可通过build.nvidia.com进行试用,未来还将通过NVIDIA NIM提供高吞吐量和低延迟的部署方案。NVIDIA此举旨在通过开放模型、数据集和训练技术,赋能开源社区,推动Agentic AI在边缘的广泛应用。
Supercharge Edge AI With High‑Accuracy Reasoning Using NVIDIA Nemotron Nano 2 9B
A Blog post by NVIDIA on Hugging Face

网友讨论