[论文翻译]Poly-encoders: 快速精准多语句评分的架构与预训练策略

Poly-encoders: architectures and pre-training strategies for fast and accurate multi-sentence scoring Poly-encoders: 快速精准多语句评分的架构与预训练策略 Samuel Humeau*, Kurt Shuster*, Marie-Anne Lachaux, Jason Weston Facebook AI Research {samuel hume au,kshuster,malachaux,... 深度预训练Transformer的应用已在多个领域取得显著进展 (Devlin et al., 2019)。对于需要在序列间进行成对比较的任务，即将给定输入与对应标签匹配，常见两种方法：对输入对执行完整自注意力机制的交叉编码器 (Cross-encoder)，以及分别编码输入对的双编码器 (Bi-encoder)。前者通常表现更优，但实际应用时速度过慢。本研究开发了一种新型Transformer架构——多编码器 (Poly-encoder)，该架构学习全局而非token级别的自注意力特征。我们对这三种方法进行了全面对比，包括最优的预训练与微调策略。实验表明：我们的模型在四项任务中达到最先进水平；多编码器速度优于交叉编码器，精度超越双编码器；最佳结果需在与下游任务相似的大规模数据集上进行预训练。

由 147****6943发布于 2025-04-12 10:58:01 深度预训练语言模型自注意力阅读次数 458