[论文翻译]CDLM: 跨文档语言建模
我们提出了一种面向多文档语言建模的新型预训练方法,该方法将两个关键思想融入掩码语言建模的自监督目标中。首先,我们不再孤立地处理单个文档,而是在多个相关文档集合上进行预训练,促使模型学习跨文档关联。其次,我们改进了近期长程Transformer架构,引入动态全局注意力机制,使其能访问整个输入文本来预测被掩码的token。我们发布了CDLM(跨文档语言模型),这是一个适用于多文档场景的新型通用语言模型,可轻松迁移至下游任务。大量实验表明:这两个创新点对CDLM的成功至关重要,它们协同作用,在多项多文本任务上创造了最新技术水平[20]。