大型数据库 - 标签内容 | AI千集 — AI角色定制平台

[论文翻译]在十亿向量中搜索：基于信源编码的重排序

SEARCHING IN ONE BILLION VECTORS: RE-RANK WITH SOURCE CODING 在十亿向量中搜索：基于信源编码的重排序 Hervé Jégou INRIA Rennes Hervé Jégou INRIA Rennes Romain Tavenard University Rennes I Romain Tavenard 雷恩第一大学 Matthijs Douze INRIA Grenoble Matthijs Douze INRIA Grenoble Lauren... 受信源编码启发的近期索引技术已被证明能成功在内存中索引数十亿高维向量。本文提出一种方法，对这些压缩域索引方法获得的邻近假设进行重排序。与常见的后验证方案（需对候选短列表执行精确距离计算）不同，该方法基于短量化码优化估计距离，从而避免从磁盘读取完整向量。我们发布了一个包含10亿个128维向量的新公共数据集，并提出了一种实验设置来评估高维索引算法在现实规模下的表现。实验表明，与完整向量表示相比，我们的方法能以较少内存准确高效地对邻近假设进行重排序。

由 147****6943发布于 2025-04-12 19:18:27 最近邻搜索信源编码大型数据库阅读次数 941