[论文翻译]交叉编码器与大语言模型在重排序SPLADE中的全面对比
A Thorough Comparison of Cross-Encoders and LLMs for Reranking SPLADE
交叉编码器与大语言模型在重排序SPLADE中的全面对比
Hervé Déjean, Stéphane Clinchant, Thibault Formal first.lastname@naverlabs.com Naver Labs Europe Meylan, France
Hervé Déjean, Stéphane Clinchant, Thibault For...
我们针对交叉编码器(Cross-encoder)与大语言模型重排序器在高效SPLADE检索结果重排序任务中的表现进行了对比研究。通过在TREC深度学习数据集及BEIR、LoTTE等域外数据集上的大规模评估,我们首先发现:在MS MARCO数据集上重排序SPLADE结果时,不同交叉编码器之间的性能差异微乎其微。但在域外场景中,模型类型和待重排序文档数量都会显著影响效果。随后我们重点研究了基于大语言模型(特别是GPT-4)的列表式重排序器:尽管GPT-4展现出惊人的零样本(zero-shot)性能,传统交叉编码器仍保持强劲竞争力。本研究旨在为当前大语言模型重排序器的热潮提供更细致的观察视角——将其定位为平衡搜索系统效果与效率时需要考量的另一个因素。