基于方差控制的离线策略强化学习用于大型语言模型

强化学习(RL)被广泛用于提高大型语言模型在推理任务上的性能,异步RL训练因其提高端到端吞吐量而具有吸引力。然而,对于广泛采用的无需批评者的策略梯度方法,如REINFORCE和GRPO,高异步性使得策略梯度估计器的方差显著增加:在过时的回放上进行训练会产生重尾的重要性比率,导致一小部分样本在更新中占主导地位。这种放大使得梯度变得噪声,与匹配的在线策略训练相比,学习变得不稳定。在数学和通用推理基准测试中,我们发现崩溃可以通过有效样本大小(ESS)和梯度范数的波动性来可靠地预测。受此诊断的启发,我们提出了方差控制策略优化(VCPO),这是一种针对REINFORCE/GRPO风格算法的一般性稳定方法,它(i)根据有效样本大小调整学习率以抑制不可靠的更新,以及(ii)在离线策略设置中应用闭合形式的方差最小基准,避免了辅助价值模型并增加了最小开销。从经验上看,VCPO在数学、通用推理和工具使用任务上的异步训练鲁棒性显著提高,优于包括掩码/裁剪稳定器和算法变体在内的一系列基线。这减少了长上下文、多轮训练时间2.5倍,同时匹配同步性能,证明了在规模上可靠地控制策略梯度方差对于异步RL至关重要。
评论
    公告

    AI千集是一个专注于科研服务的智能平台
    在这里您可以获得本平台自训练的
    科研智能体
    和小伙伴一起玩转AI,做自己的AI机器人
    来AI千集,赋能智慧快人一步
    扫一扫,快速获取解决方案与报价
    立即咨询

    积分排行