[论文翻译]BM25S:通过即时稀疏评分实现数量级加速的词汇搜索
我们推出BM25S,这是一种基于Python语言的高效BM25实现,仅依赖Numpy1和Scipy2。通过索引期间主动计算BM25分数并将其存储为稀疏矩阵,BM25S相比最流行的Python框架实现了高达\$500\mathrm{x}\$的加速。与采用高度优化的Java实现的主流商业产品相比,该方案也实现了显著加速。此外,BM25S通过采用新颖的分数偏移方法将主动评分扩展到非稀疏变体,完整复现了Kamphuis等人(2020)提出的五种BM25变体实现。代码详见https://github.com/xhluca/bm25s