[论文翻译]HuatuoGPT,探索将大语言模型训练成医生
本文介绍了医疗咨询大语言模型HuatuoGPT。该模型的核心方法是在监督微调阶段同时利用ChatGPT提炼数据和医生真实数据。ChatGPT的回复通常详尽、表述清晰且信息丰富,但在诸多方面无法像医生那样操作,例如综合诊断。我们认为医生真实数据能对提炼数据形成互补,使提炼后的语言模型具备医生般的表现。为充分发挥两类数据优势,我们采用RLAIF(基于AI反馈的强化学习)方式训练奖励模型,使语言模型兼具两类数据的优点。为评估模型性能,我们提出了一套综合评估方案(包含自动和人工指标)。实验结果表明,在GPT-4评估、人工评估和医疗基准数据集中,HuatuoGPT在开源大语言模型中实现了最先进的医疗咨询表现。值得注意的是,通过引入额外真实数据和RLAIF,提炼后的语言模型(即HuatuoGPT)在多数情况下超越了其教师模型ChatGPT。代码、数据及模型已开源:https://github.com/FreedomIntelligence/HuatuoGPT。在线演示见:https://www.HuatuoGPT.cn/。