[论文翻译]XLNet: 语言理解的广义自回归预训练
基于双向上下文建模能力,采用去噪自编码预训练的BERT相比基于自回归语言建模的预训练方法取得了更优性能。但BERT依赖掩码破坏输入的特性,忽略了被遮蔽位置间的依赖关系,并存在预训练与微调不一致的问题。针对这些优缺点,我们提出了XLNet——一种广义自回归预训练方法,其创新在于:(1) 通过最大化因式分解顺序所有排列的期望似然来学习双向上下文;(2) 凭借自回归架构克服了BERT的局限性。此外,XLNet将当前最先进的自回归模型Transformer-XL的核心思想融入预训练过程。实证研究表明,在可比实验设置下,XLNet在20项任务(包括问答、自然语言推理、情感分析和文档排序)上显著超越BERT,且优势幅度普遍较大。