[论文翻译]REALM: 检索增强的语言模型预训练
REALM: Retrieval-Augmented Language Model Pre-Training
REALM: 检索增强的语言模型预训练
Kelvin Guu * 1 Kenton Lee * 1 Zora Tung 1 Panupong Pasupat 1 Ming-Wei Chang
Kelvin Guu * 1 Kenton Lee * 1 Zora Tung 1 Panupong Pasupat 1 Ming-Wei Chang
Abstract
摘要
Language model pr...
语言模型预训练已被证明能捕获大量世界知识,这对问答等自然语言处理任务至关重要。然而,这些知识隐式存储在神经网络参数中,需要不断扩大网络规模以涵盖更多事实。为使知识获取更具模块化和可解释性,我们通过潜在知识检索器增强语言模型预训练,使模型能在预训练、微调和推理阶段检索并关注来自维基百科等大型语料库的文档。我们首次展示了如何以无监督方式预训练此类知识检索器:使用掩码语言建模作为学习信号,并通过考虑数百万文档的检索步骤进行反向传播。通过在开放域问答(Open-QA)任务上的微调,我们验证了检索增强型语言模型预训练(REALM)的有效性。在三个主流Open-QA基准测试中,我们与显式和隐式知识存储的先进模型进行对比,发现以显著优势(绝对准确率提升4%)超越所有现有方法,同时具备可解释性和模块化等质性优势。