# 利用大型语言模型参数知识进行无检索事实核查

可信性是建立在大型语言模型（LLMs）基础上的智能体AI系统的核心研究挑战。为了增强信任度，多个来源的自然语言陈述，包括人工编写的文本、网络内容和模型输出，通常通过检索外部知识并使用LLM来验证陈述与检索证据的忠实度来进行事实性检查。因此，这些方法受到检索错误和外部数据可用性的限制，而模型的内在事实验证能力在很大程度上未被充分利用。我们提出了不依赖检索的事实核查任务，重点关注任意自然语言陈述的验证，独立于其来源。为了研究这一设定，我们引入了一个全面的评估框架，重点关注泛化能力，测试对以下方面的稳健性：(i)长尾知识、(ii)陈述来源的变化、(iii)多语言性和(iv)长文本生成。在9个数据集、18种方法和3个模型中，我们的实验表明，基于logit的方法通常相比利用内部模型表示的方法性能较差。基于这一发现，我们引入了INTRA，这是一种利用内部表示之间相互作用的方法，以强大的泛化能力实现了最先进的性能。更广泛地说，我们的工作将不依赖检索的事实核查确立为一个有前景的研究方向，它可以补充基于检索的框架、改进可扩展性，并使这些系统能够在训练过程中用作奖励信号或作为集成到生成过程中的组件。