[论文翻译]SELF CHECK GP T: 大语言模型零资源黑盒幻觉检测
SELF CHECK GP T: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models
SELF CHECK GP T: 大语言模型零资源黑盒幻觉检测
Potsawee Manakul, Adian Liusie, Mark J. F. Gales ALTA Institute, Department of Engineering, University of Cambridge pm574@...
生成式大语言模型 (Generative Large Language Models/LLMs) 如 GPT-3 能够针对各种用户提示生成高度流畅的响应。然而,大语言模型存在虚构事实和发表非事实性陈述的问题,这会削弱其输出的可信度。现有的事实核查方法要么需要访问输出概率分布 (对于 ChatGPT 等系统可能无法获取) ,要么依赖通过独立复杂模块连接的外部数据库。本文提出 "SelfCheckGPT" —— 一种基于采样的简易方法,可在零资源条件下 (即无需外部数据库) 对黑盒模型的响应进行事实核查。该方法基于一个简单原理:若大语言模型掌握某个概念,其采样响应应具有相似性且包含一致事实;而对于虚构事实,随机采样响应则容易出现分歧和矛盾。我们通过 GPT-3 生成 WikiBio 数据集中人物描述段落并进行人工事实标注,验证了 SelfCheckGPT 能够:i) 检测非事实与事实性语句;ii) 根据事实性对段落进行排序。与多个基线方法对比表明,本方法在语句级幻觉检测中具有显著更高的 AUC-PR 值,在段落级事实评估中也比灰盒方法获得更高的相关性分数 [20] 。