[论文翻译]SELF CHECK GP T: 大语言模型零资源黑盒幻觉检测

SELF CHECK GP T: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models SELF CHECK GP T: 大语言模型零资源黑盒幻觉检测 Potsawee Manakul, Adian Liusie, Mark J. F. Gales ALTA Institute, Department of Engineering, University of Cambridge pm574@... 生成式大语言模型 (Generative Large Language Models/LLMs) 如 GPT-3 能够针对各种用户提示生成高度流畅的响应。然而，大语言模型存在虚构事实和发表非事实性陈述的问题，这会削弱其输出的可信度。现有的事实核查方法要么需要访问输出概率分布 (对于 ChatGPT 等系统可能无法获取) ，要么依赖通过独立复杂模块连接的外部数据库。本文提出 "SelfCheckGPT" —— 一种基于采样的简易方法，可在零资源条件下 (即无需外部数据库) 对黑盒模型的响应进行事实核查。该方法基于一个简单原理：若大语言模型掌握某个概念，其采样响应应具有相似性且包含一致事实；而对于虚构事实，随机采样响应则容易出现分歧和矛盾。我们通过 GPT-3 生成 WikiBio 数据集中人物描述段落并进行人工事实标注，验证了 SelfCheckGPT 能够：i) 检测非事实与事实性语句；ii) 根据事实性对段落进行排序。与多个基线方法对比表明，本方法在语句级幻觉检测中具有显著更高的 AUC-PR 值，在段落级事实评估中也比灰盒方法获得更高的相关性分数 [20] 。

由 147****6943发布于 2025-04-12 22:56:18 大语言模型幻觉检测阅读次数 503