[论文翻译]Poly-encoders: 快速精准多语句评分的架构与预训练策略
Poly-encoders: architectures and pre-training strategies for fast and accurate multi-sentence scoring
Poly-encoders: 快速精准多语句评分的架构与预训练策略
Samuel Humeau*, Kurt Shuster*, Marie-Anne Lachaux, Jason Weston Facebook AI Research {samuel hume au,kshuster,malachaux,...
深度预训练Transformer的应用已在多个领域取得显著进展 (Devlin et al., 2019)。对于需要在序列间进行成对比较的任务,即将给定输入与对应标签匹配,常见两种方法:对输入对执行完整自注意力机制的交叉编码器 (Cross-encoder),以及分别编码输入对的双编码器 (Bi-encoder)。前者通常表现更优,但实际应用时速度过慢。本研究开发了一种新型Transformer架构——多编码器 (Poly-encoder),该架构学习全局而非token级别的自注意力特征。我们对这三种方法进行了全面对比,包括最优的预训练与微调策略。实验表明:我们的模型在四项任务中达到最先进水平;多编码器速度优于交叉编码器,精度超越双编码器;最佳结果需在与下游任务相似的大规模数据集上进行预训练。