NVIDIA携手OpenAI发布GPT-OSS模型,Blackwell架构驱动AI推理迈入新纪元
NVIDIA与OpenAI的合作深化,推出了经NVIDIA Blackwell架构优化的GPT-OSS模型,实现了高达每秒150万token的推理速度。这些模型采用MoE架构和128k上下文长度,并以FP4精度运行,可适配于单80GB数据中心GPU。
此次发布标志着AI模型在性能和易用性上的重大飞跃。Blackwell架构通过第二代Transformer Engine、FP4 Tensor Core及高带宽NVLink技术,显著提升了推理效率。NVIDIA通过TensorRT-LLM、FlashInfer、Ollama及vLLM等平台和工具,为开发者提供了优化的模型部署方案,包括本地PC运行、云端部署及NVIDIA NIM微服务。Dynamo平台的引入,利用分离式推理技术,进一步优化了长序列输入场景下的性能表现,为AI应用的大规模落地奠定了坚实基础。
NVIDIA Accelerates OpenAI gpt-oss Models Delivering 1.5 M TPS Inference on NVIDIA GB200 NVL72 | NVIDIA Technical Blog
NVIDIA and OpenAI began pushing the boundaries of AI with the launch of NVIDIA DGX back in 2016. The collaborative AI innovation continues with the OpenAI gpt-oss-20b and gpt-oss-120b launch.

网友讨论