[论文翻译]训练计算最优的大语言模型

我们研究了在给定计算预算下训练Transformer语言模型的最优模型规模和Token数量。发现当前大语言模型存在显著训练不足的问题，这是近期在保持训练数据量不变情况下盲目扩大模型规模的结果。通过训练400多个参数量从7000万到160亿不等、训练Token量从50亿到5000亿不等的语言模型，我们发现计算最优训练应保持模型规模与训练Token量的同步增长：模型规模每翻一倍，训练Token量也需相应翻倍。我们通过训练预测最优模型Chinchilla验证了这一假设，该模型与Gopher使用相同计算预算，但采用700亿参数和4倍训练数据。Chinchilla在广泛的下游评估任务中均显著优于Gopher(280B)、GPT-3(175B)、Jurassic-1(178B)和Megatron-Turing NLG(530B)。这意味着Chinchilla在微调和推理阶段所需计算量大幅减少，极大提升了下游应用便利性。值得一提的是，Chinchilla在MMLU基准测试中达到了67.5%的最新平均准确率，较Gopher提升超过7%。

由卡汁发布于 2025-04-19 21:36:46 Transformer语言模型TokenMMLU基准测试阅读次数 383

[论文翻译]基于循环神经网络的序列预测计划采样方法

循环神经网络 (Recurrent Neural Networks) 可以通过训练在给定输入的情况下生成一系列 token，这在机器翻译和图像描述生成的最新成果中得到了印证。目前训练它们的方法主要是最大化序列中每个 token 在当前（循环）状态和前一 token 条件下的似然。在推理时，未知的前一 token 会被模型自身生成的 token 所替代。这种训练和推理之间的差异可能导致错误，并沿着生成的序列迅速累积。我们提出了一种课程学习 (curriculum learning) 策略，逐步将训练过程从完全依赖真实前一 token 的引导模式，过渡到主要使用模型生成 token 的低引导模式。在多个序列预测任务上的实验表明，这种方法带来了显著改进。此外，它在我们赢得 2015 年 MSCOCO 图像描述挑战赛的参赛方案中得到了成功应用。