[博客翻译]大语言模型的秘密:如何识别AI在说谎


原文地址:https://arstechnica.com/ai/2024/06/researchers-describe-how-to-tell-if-chatgpt-is-confabulating/


这是世界上最不保密的秘密之一:大型语言模型会给出明显错误的答案,并且其自信程度与给出正确答案时几乎无法区分。造成这种情况的原因有很多。AI 可能是在错误信息上训练的;答案可能需要从 LLM 无法实现的事实中推断出来;或者 LLM 训练的某个方面可能鼓励了错误。

但也许最简单的解释是,LLM 并不识别什么是正确答案,但它必须提供一个答案。所以它只是编造了一些东西,这种习惯被称为捏造

考虑到人们已经开始依赖大型语言模型从大学论文到求职申请等所有事情,找出 LLM 何时在编造东西显然具有巨大的价值。现在,牛津大学的研究人员表示,他们发现了一种相对简单的方法来确定 LLM 何时似乎在捏造,该方法适用于所有流行模型和广泛的主题。在这样做的过程中,他们发展出了证据,表明 LLM 提供的大多数替代事实都是捏造的产物。

捕捉捏造

这项新研究专门针对捏造,而不涉及错误输入的实例。在他们的工作描述论文中,牛津团队将其定义为:“LLM 流畅地提出错误且任意的主张——我们指的是答案对无关细节敏感,比如随机种子。”

他们的工作背后的逻辑其实很简单。LLM 并不是为了准确性而训练的,它们只是通过大量文本训练,学会了产生听起来像人类的表述。如果训练中的足够多文本样本一致地将某事呈现为事实,那么 LLM 很可能也会将其作为事实提出。但是,如果训练示例很少或事实不一致,那么 LLM 就会合成一个看似合理的、但很可能不正确的答案。

然而,当 LLM 在正确答案的表述上有多个选项时,也可能遇到类似的情况。以研究人员论文中的例子为例,“巴黎”、“它在巴黎”和“法国首都巴黎”都是关于“埃菲尔铁塔在哪里?”的有效答案。因此,统计上的不确定性(在此上下文中称为熵)可以出现在 LLM 不确定如何正确回答或无法识别正确答案的情况下。

这意味着仅仅在面临多个大致相等的答案时强迫 LLM 返回“我不知道”不是一个好主意。这样做可能会屏蔽很多正确答案。

因此,研究人员专注于他们所谓的语义熵。这评估了 LLM 评估的所有统计上可能的答案,并确定其中有多少在语义上是等价的。如果大量答案具有相同的意思,那么 LLM 可能对表达方式不确定,但有正确的答案。如果没有,那么它可能处于容易捏造的情况,应该避免这种情况。

提取意义

在实践中,这如何运作?描述非常直接:

我们的方法通过对每个问题采样多个可能的答案,然后将它们算法聚类成具有相似含义的答案。我们根据答案是否相互双向蕴含来确定这一点。即,如果句子 A 蕴含句子 B 为真,反之亦然,我们认为它们在相同的语义簇中。

如果有单一簇占主导地