24 Aug 2025 2 min read 人工智能 (AI)

NVIDIA Nemotron Nano 2 9B：边缘AI推理的性能与成本双重突破

NVIDIA推出了Nemotron Nano 2 9B，一款专为边缘AI和企业级推理设计的开源模型。该模型采用混合Transformer-Mamba架构，实现了在同等参数规模下超越纯Transformer模型的性能，并引入了可配置的“思考预算”功能，允许用户精细控制模型的推理深度，从而在保证高准确率的同时，显著降低成本并优化响应速度。

Nemotron Nano 2 9B在数学、编程、科学等推理任务上展现出同类领先的准确性。其混合架构通过结合Mamba的线性时间复杂度和Transformer的全局信息捕捉能力，实现了高达6倍于同级别模型的吞吐量。关键的“思考预算”特性使用户能够通过控制内部推理的“思考”Token数量，将推理成本最高降低60%，这对于需要低延迟和成本效益的客户服务、分析助手及边缘设备部署场景尤为重要。

该模型已在Hugging Face上开放权重，并可通过build.nvidia.com进行试用，未来还将通过NVIDIA NIM提供高吞吐量和低延迟的部署方案。NVIDIA此举旨在通过开放模型、数据集和训练技术，赋能开源社区，推动Agentic AI在边缘的广泛应用。

订阅情报

推荐情报

AMD Ryzen 8000 APU 登场，AI 引擎驱动笔记本智能化升级

远程协作功能升级，重塑团队互动与效率新格局

AssemblyAI语音转文本API集成发言人分离，重塑语音数据分析效率

OpenAI更新ChatGPT以加强心理健康防护，回应用户安全关切

阿里巴巴Wan2.2-S2V模型升级：驱动虚拟形象迈向电影级交互新高度