这是世界上最不保密的秘密之一:大型语言模型会给出明显错误的答案,并且其自信程度与给出正确答案时几乎无法区分。造成这种情况的原因有很多。AI 可能是在错误信息上训练的;答案可能需要从 LLM 无法实现的事实中推断出来;或者 LLM 训练的某个方面可能鼓励了错误。
但也许最简单的解释是,LLM 并不识别什么是正确答案,但它必须提供一个答案。所以它只是编造了一些东西,这种习惯被称为捏造。
考虑到人们已经开始依赖大型语言模型从大学论文到求职申请等所有事情,找出 LLM 何时在编造东西显然具有巨大的价值。现在,牛津大学的研究人员表示,他们发现了一种相对简单的方法来确定 LLM 何时似乎在捏造,该方法适用于所有流行模型和广泛的主题。在这样做的过程中,他们发展出了证据,表明 LLM 提供的大多数替代事实都是捏造的产物。
捕捉捏造
这项新研究专门针对捏造,而不涉及错误输入的实例。在他们的工作描述论文中,牛津团队将其定义为:“LLM 流畅地提出错误且任意的主张——我们指的是答案对无关细节敏感,比如随机种子。”
他们的工作背后的逻辑其实很简单。LLM 并不是为了准确性而训练的,它们只是通过大量文本训练,学会了产生听起来像人类的表述。如果训练中的足够多文本样本一致地将某事呈现为事实,那么 LLM 很可能也会将其作为事实提出。但是,如果训练示例很少或事实不一致,那么 LLM 就会合成一个看似合理的、但很可能不正确的答案。
然而,当 LLM 在正确答案的表述上有多个选项时,也可能遇到类似的情况。以研究人员论文中的例子为例,“巴黎”、“它在巴黎”和“法国首都巴黎”都是关于“埃菲尔铁塔在哪里?”的有效答案。因此,统计上的不确定性(在此上下文中称为熵)可以出现在 LLM 不确定如何正确回答或无法识别正确答案的情况下。
这意味着仅仅在面临多个大致相等的答案时强迫 LLM 返回“我不知道”不是一个好主意。这样做可能会屏蔽很多正确答案。
因此,研究人员专注于他们所谓的语义熵。这评估了 LLM 评估的所有统计上可能的答案,并确定其中有多少在语义上是等价的。如果大量答案具有相同的意思,那么 LLM 可能对表达方式不确定,但有正确的答案。如果没有,那么它可能处于容易捏造的情况,应该避免这种情况。
提取意义
在实践中,这如何运作?描述非常直接:
我们的方法通过对每个问题采样多个可能的答案,然后将它们算法聚类成具有相似含义的答案。我们根据答案是否相互双向蕴含来确定这一点。即,如果句子 A 蕴含句子 B 为真,反之亦然,我们认为它们在相同的语义簇中。
如果有单一簇占主导地位,那么 AI 是在一个具有相似事实内容的选项集合中选择答案。如果有多个簇,那么 AI 是在不同集合中选择,这些集合都包含不同的事实内容——这可能导致捏造。
除了概念上的简单性外,基于这些想法实施系统也很直接。大多数主要的 LLM 会对查询生成一组统计上可能的答案,这些是评估语义熵所需的。已经存在可以确定两个句子是否互为蕴含的 LLM 和称为自然语言推理工具的软件。由于这些工具已经存在,就不需要监督训练,意味着系统不需要用捏造例子来学习如何确定一组潜在答案的语义熵。
研究人员开发了一个指标来确定用户由于他们的语义熵过滤器而体验到的准确性提升。然后他们在广泛的主题上测试了它和其他一些错误检测方法:常识和一般知识、生物学以及一组谷歌搜索查询。
在这些测试中,两件事变得显而易见。一是,在少数边缘情况之外,语义熵比其他任何方法捕捉到更多错误答案。二是,LLM 产生的大多数错误似乎都是捏造的。这一点可以从其他方法捕获各种错误类型,但仍然被语义熵测试超越这一事实推断出来,尽管这些测试仅 捕获捏造。
超出简单事实
研究人员还展示了该系统可以通过调整来处理不仅仅是基本事实陈述的内容,例如处理传记,传记是一系列单独的事实。因此,他们开发了软件,将传记信息分解为一组单独的事实声明,并使用语义熵评估每个声明。这种方法在包含多达 150 个单独事实声明的简短传记上起作用。
总的来说,这似乎是一个高度灵活的系统,不需要重大新开发就可以付诸实践,并且可以显著提高 LLM 的性能。而且,因为它只捕获捏造而不捕获其他类型的错误,所以可能可以与其他方法结合使用,进一步提高性能。
正如研究人员指出的那样,这项工作还暗示,答案选项的统计信息中似乎隐藏着 LLM 知道何时拥有正确答案所需的所有信息;只是还没有利用。如他们所说:“语义熵在检测错误方面的成功表明,LLM 甚至更擅长‘知道自己不知道什么’……它们只是不知道自己不知道。”