[论文翻译]Slamming: 在一张 GPU 上一天内训练一个语音语言模型
我们介绍了 Slam,这是一种在单张学术 GPU 上 24 小时内高质量训练语音语言模型(SLM)的配方。我们通过模型初始化和架构的实证分析、合成训练数据、合成数据的偏好优化以及调整所有其他组件来实现这一目标。我们通过实证证明,这种训练配方在更多计算资源下也能很好地扩展,以一小部分计算成本获得与领先 SLM 相当的结果。我们希望这些见解能使 SLM 训练和研究更加普及。在 SLM 扩展定律的背景下,我们的结果远远超出了预测的计算最优性能,为 SLM 的可行性提供了乐观的展望。参见代码、数据、模型、样本 - https://pages.cs.huji.ac.il/adiyosslab/slamming。