[论文翻译]从人类反馈中学习摘要生成
Learning to summarize from human feedback
从人类反馈中学习摘要生成
Nisan Stiennon∗ Long Ouyang∗ Jeff Wu∗ Daniel M. Ziegler∗ Ryan Lowe∗
Nisan Stiennon∗ Long Ouyang∗ Jeff Wu∗ Daniel M. Ziegler∗ Ryan Lowe∗
Chelsea Voss∗ Alec Radford Dario Amodei Paul Christiano∗
Chelsea ...
随着大语言模型日益强大,特定任务所使用的数据和评估指标逐渐成为训练与评估的瓶颈。例如,摘要模型通常被训练用于预测人工参考摘要,并使用ROUGE指标进行评估,但这两者都只是摘要质量的粗略替代指标。本研究证明,通过训练模型优化人类偏好能显著提升摘要质量。我们收集了大规模高质量的人类摘要对比数据集,训练出可预测人类偏好摘要的模型,并将其作为奖励函数,通过强化学习微调摘要策略。我们将该方法应用于Reddit帖子的TL;DR数据集[63],发现模型表现显著优于人工参考摘要及仅通过监督学习微调的更大规模模型。该模型还可迁移至CNN/DM新闻文章[22],在未经新闻领域针对性微调的情况下,生成与人工参考摘要质量相当的摘要。我们通过大量分析深入理解人类反馈数据集与微调模型,证实奖励模型具备跨数据集泛化能力,且优化奖励模型比优化ROUGE指标更能产生符合人类偏好的优质摘要。本研究希望促使机器学习研究者更关注训练损失与实际期望模型行为之间的关联。