2 min read

Dion优化器开源:AI模型训练效率革命,大规模模型训练迎来数量级加速

Dion,一种新型AI模型训练优化器,已开源,旨在解决现有技术在处理大规模模型时的效率瓶颈。该优化器通过对低秩奇异向量空间进行正交化处理,显著降低了计算和通信开销,同时保持了性能。

Dion的核心创新在于其“低秩正交化”方法。与Muon优化器需要对整个矩阵进行正交化不同,Dion仅处理前r个奇异向量,大幅减少了计算量。通过“摊销幂迭代”技术,Dion将计算成本控制在每次优化步骤只需两次矩阵乘法。这种方法能够与FSDP和张量并行等分布式训练技术无缝集成,甚至可以在不接触完整行或列的情况下实现矩阵正交化。实验数据显示,在模型规模增大时,Dion所需的秩增长远慢于模型参数量,这使得其在超大规模模型(如LLaMA-3)上,仅需1/16或1/64的秩就能实现与Muon相当甚至更优的性能。

研究表明,Dion的优势在模型规模增大后愈发明显,尤其是在大批量训练场景下,其更新质量的下降速度远慢于Muon。对于4050亿参数的LLaMA-3模型,使用Dion(秩为1/16或更低)相比Muon可实现数量级的速度提升。该优化器已通过PyTorch FSDP2 + Tensor Parallel实现开源,并提供pip安装方式,旨在普及大规模模型的高效训练。

Dion: Distributed orthonormal update revolution
Dion is a new AI model optimization method that boosts scalability and performance over existing leading methods by orthonormalizing only a top rank subset of singular vectors, enabling more efficient training of large models such as LLaMA-3 with reduced overhead:
订阅情报