[论文翻译]大语言模型预训练中的模型合并
模型合并已成为增强大语言模型的一项前景广阔的技术,但其在大规模预训练中的应用仍相对未被探索。本文全面研究了预训练过程中的模型合并技术。通过对参数规模从数百万到超过1000亿的密集结构和专家混合 (MoE) 架构进行大量实验,我们发现:使用恒定学习率训练的检查点进行合并不仅能显著提升性能,还能准确预测退火行为。这些改进既能提高模型开发效率,又能大幅降低训练成本。我们对合并策略和超参数的详细消融研究为底层机制提供了新见解,同时揭示了新颖应用。通过全面的实验分析,我们为开源社区提供了有效的模型合并实用预训练指南。