[论文翻译]REALM: 检索增强的语言模型预训练

REALM: Retrieval-Augmented Language Model Pre-Training REALM: 检索增强的语言模型预训练 Kelvin Guu * 1 Kenton Lee * 1 Zora Tung 1 Panupong Pasupat 1 Ming-Wei Chang Kelvin Guu * 1 Kenton Lee * 1 Zora Tung 1 Panupong Pasupat 1 Ming-Wei Chang Abstract 摘要 Language model pr... 语言模型预训练已被证明能捕获大量世界知识，这对问答等自然语言处理任务至关重要。然而，这些知识隐式存储在神经网络参数中，需要不断扩大网络规模以涵盖更多事实。为使知识获取更具模块化和可解释性，我们通过潜在知识检索器增强语言模型预训练，使模型能在预训练、微调和推理阶段检索并关注来自维基百科等大型语料库的文档。我们首次展示了如何以无监督方式预训练此类知识检索器：使用掩码语言建模作为学习信号，并通过考虑数百万文档的检索步骤进行反向传播。通过在开放域问答(Open-QA)任务上的微调，我们验证了检索增强型语言模型预训练(REALM)的有效性。在三个主流Open-QA基准测试中，我们与显式和隐式知识存储的先进模型进行对比，发现以显著优势(绝对准确率提升4%)超越所有现有方法，同时具备可解释性和模块化等质性优势。

由 147****6943发布于 2025-03-29 19:08:12 语言模型知识库阅读次数 696