[论文翻译]学会信任你的感受:利用大语言模型中的自我意识缓解幻觉问题
Learning to Trust Your Feelings: Leveraging Self-awareness in LLMs for Hallucination Mitigation
学会信任你的感受:利用大语言模型中的自我意识缓解幻觉问题
Yuxin Liang*1, Zhuoyang Song2, Hao Wang1, Jiaxing Zhang2 1X2Robot 2 International Digital Economy Academy liang yu x in 42@gmail.co...
我们评估了大语言模型(LLM)识别和表达其内部知识状态的能力,这是对抗事实幻觉(factual hallucination)并确保大语言模型可靠应用的关键因素。实验发现大语言模型对其内部知识状态具有高度自我认知,在知识探测(knowledge probing)中准确率超过\$85\%\$。然而,大语言模型在生成过程中往往无法正确表达其内部知识,从而导致事实幻觉。我们开发了自动幻觉标注工具Dream Catcher,通过结合知识探测与一致性检查方法,对事实偏好数据进行排序。以知识偏好作为奖励信号,我们提出了基于知识反馈的强化学习(RLKF)训练框架,利用强化学习提升大语言模型的事实性和诚实度。在多个模型上的实验表明,RLKF训练能有效增强模型利用内部知识状态的能力,显著提升各类知识型和诚实度相关任务的性能。