[论文翻译]XLNet: 用于语言理解的广义自回归预训练
基于双向上下文建模的能力,像 BERT 这样的去噪自编码预训练方法比基于自回归语言建模的预训练方法表现更好。然而,由于依赖掩码对输入进行破坏,BERT 忽略了掩码位置之间的依赖关系,并存在预训练-微调差异。鉴于这些优缺点,我们提出了 XLNet,这是一种广义的自回归预训练方法,它 (1) 通过最大化所有因子分解顺序排列的期望似然来学习双向上下文,并且 (2) 由于其自回归公式,克服了 BERT 的局限性。此外,XLNet 将来自最先进的自回归模型 Transformer-XL 的思想整合到预训练中。实验表明,在可比的实验设置下,XLNet 在 20 个任务上优于 BERT,通常优势显著,包括问答、自然语言推理、情感分析和文档排序。