GPT-OSS 精准调优:FP4 精度下的性能与准确性平衡之道

OpenAI发布了其自GPT-2以来的首个开源模型系列GPT-OSS,该模型采用了混合专家(MoE)架构、128K上下文长度和可调深度推理能力。其中,GPT-OSS-120B在公开基准测试中的表现已可媲美OpenAI的闭源模型。然而,在医疗和金融等低容错率行业部署时,大多数基础模型需要后训练优化。GPT-OSS原生MXFP4精度带来了独特的调优挑战。
为克服此挑战,研究人员提出了一种创新的调优流程:首先在BF16(或FP16)版本上执行监督式微调(SFT),以确保稳定的梯度累积和准确性恢复。随后,利用NVIDIA TensorRT Model Optimizer应用量化感知训练(QAT),将模型重新量化至FP4精度,从而在保持效率的同时,最大化任务特定性能。
该SFT+QAT工作流已在多语言推理和减少不必要拒绝的评估任务中展现出显著成效,将原始模型的16%和30%通过率分别提升至98%。未来,随着NVIDIA Blackwell架构和NVFP4格式的引入,结合TensorRT-LLM的支持,预计将进一步优化FP4精度下的模型准确性,为更严苛的应用场景提供支持。
网友讨论