[论文翻译]小规模大语言模型中的强化学习推理:有效与无效之处
提升大语言模型 (LLM) 的推理能力通常依赖于大量的计算资源和广泛的数据集,这在资源受限的环境中限制了其可访问性。我们的研究探讨了强化学习 (RL) 在提升小型 LLM 推理能力方面的潜力,重点关注一个 1.5 亿参数的模型 DeepSeek-R1-Distill-Qwen-1.5B,在严格的约束条件下:在 4 个 NVIDIA A40 GPU(每个 48 GB VRAM)上训练 24 小时。我们采用了 Group Relative Policy Optimization (GRPO) 算法,并精心策划了一个紧凑且高质量的数学推理数据集,进行了三项实验以探索模型的行为和性能。我们的结果表明,推理能力迅速提升——例如,AMC23 的准确率从 \$63\%\$ 上升到 \$80\%\$,AIME24 达到了 \$46.7\%\$,超过了 o1-preview——仅使用了 7,000 个样本和 \$\\$42\$ 的训练成本,而基线模型的成本则高达数千美元。然而,随着训练时间的延长,出现了优化不稳定性和长度限制等挑战。这些发现突显了基于 RL 的微调在小型 LLM 中的有效性,为大规模方法提供了一种经济高效的替代方案。我们发布了代码和数据集作为开源资源,提供了对权衡的见解,并为在资源有限的环境中构建可扩展的、具备推理能力的 LLM 奠定了基础。所有资源均可在 https://github.com/knoveleng/open-rs 获取。
论文瞄准了一个更接地气的问题:如何让参数少、体积小的模型(比如1.5B参数)也能拥有强大的数学推理能力?