• [论文翻译]SELF CHECK GP T: 大语言模型零资源黑盒幻觉检测

    SELF CHECK GP T: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models SELF CHECK GP T: 大语言模型零资源黑盒幻觉检测 Potsawee Manakul, Adian Liusie, Mark J. F. Gales ALTA Institute, Department of Engineering, University of Cambridge pm574@... 生成式大语言模型 (Generative Large Language Models/LLMs) 如 GPT-3 能够针对各种用户提示生成高度流畅的响应。然而,大语言模型存在虚构事实和发表非事实性陈述的问题,这会削弱其输出的可信度。现有的事实核查方法要么需要访问输出概率分布 (对于 ChatGPT 等系统可能无法获取) ,要么依赖通过独立复杂模块连接的外部数据库。本文提出 "SelfCheckGPT" —— 一种基于采样的简易方法,可在零资源条件下 (即无需外部数据库) 对黑盒模型的响应进行事实核查。该方法基于一个简单原理:若大语言模型掌握某个概念,其采样响应应具有相似性且包含一致事实;而对于虚构事实,随机采样响应则容易出现分歧和矛盾。我们通过 GPT-3 生成 WikiBio 数据集中人物描述段落并进行人工事实标注,验证了 SelfCheckGPT 能够:i) 检测非事实与事实性语句;ii) 根据事实性对段落进行排序。与多个基线方法对比表明,本方法在语句级幻觉检测中具有显著更高的 AUC-PR 值,在段落级事实评估中也比灰盒方法获得更高的相关性分数 [20] 。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理