[论文翻译]开放域问答的密集段落检索
Dense Passage Retrieval for Open-Domain Question Answering
开放域问答的密集段落检索
Vladimir Karpukhin, Barlas Oguz, Sewon Mint, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen‡, Wen-tau Yih Facebook AI †University of Washington ‡Princeton University {vladk, barla...
开放域问答依赖于高效的段落检索来筛选候选上下文,其中传统稀疏向量空间模型(如TF-IDF或BM25)是实际采用的方法。本研究表明,检索可以仅通过稠密表示实现——通过简单的双编码器框架,仅需少量问题和段落即可学习嵌入表示。在广泛开放的问答数据集评估中,我们的稠密检索器在Top-20段落检索准确率上以\$9\%-19\%\$的绝对优势大幅超越强力的LuceneBM25系统,并助力端到端问答系统在多个开放域问答基准测试中创造了最新最优性能[1]。