[论文翻译]学会信任你的感受：利用大语言模型中的自我意识缓解幻觉问题

Learning to Trust Your Feelings: Leveraging Self-awareness in LLMs for Hallucination Mitigation 学会信任你的感受：利用大语言模型中的自我意识缓解幻觉问题 Yuxin Liang*1, Zhuoyang Song2, Hao Wang1, Jiaxing Zhang2 1X2Robot 2 International Digital Economy Academy liang yu x in 42@gmail.co... 我们评估了大语言模型(LLM)识别和表达其内部知识状态的能力，这是对抗事实幻觉(factual hallucination)并确保大语言模型可靠应用的关键因素。实验发现大语言模型对其内部知识状态具有高度自我认知，在知识探测(knowledge probing)中准确率超过\$85\%\$。然而，大语言模型在生成过程中往往无法正确表达其内部知识，从而导致事实幻觉。我们开发了自动幻觉标注工具Dream Catcher，通过结合知识探测与一致性检查方法，对事实偏好数据进行排序。以知识偏好作为奖励信号，我们提出了基于知识反馈的强化学习(RLKF)训练框架，利用强化学习提升大语言模型的事实性和诚实度。在多个模型上的实验表明，RLKF训练能有效增强模型利用内部知识状态的能力，显著提升各类知识型和诚实度相关任务的性能。

由 147****6943发布于 2025-04-13 12:09:01 大语言模型幻觉问题强化学习阅读次数 432