• [论文翻译]在十亿向量中搜索:基于信源编码的重排序

    SEARCHING IN ONE BILLION VECTORS: RE-RANK WITH SOURCE CODING 在十亿向量中搜索:基于信源编码的重排序 Hervé Jégou INRIA Rennes Hervé Jégou INRIA Rennes Romain Tavenard University Rennes I Romain Tavenard 雷恩第一大学 Matthijs Douze INRIA Grenoble Matthijs Douze INRIA Grenoble Lauren... 受信源编码启发的近期索引技术已被证明能成功在内存中索引数十亿高维向量。本文提出一种方法,对这些压缩域索引方法获得的邻近假设进行重排序。与常见的后验证方案(需对候选短列表执行精确距离计算)不同,该方法基于短量化码优化估计距离,从而避免从磁盘读取完整向量。 我们发布了一个包含10亿个128维向量的新公共数据集,并提出了一种实验设置来评估高维索引算法在现实规模下的表现。实验表明,与完整向量表示相比,我们的方法能以较少内存准确高效地对邻近假设进行重排序。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理