近似最近邻搜索算法研究与应用

来源 :南京大学 | 被引量 : 0次 | 上传用户：Almzg_0

【摘要】

：

【作者】

：

刘凤山

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2021年01期

【关键词】

：

信息检索近似最近邻搜索方法选择模型压缩

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在大数据时代,每天都有海量的数据产生,以深度学习为代表的技术被广泛应用于从复杂的数据中提取信息。深度学习技术通过将复杂的对象如文本、语音、图像等编码为高维向量来表示对象,并通过向量之间的距离来度量对象之间的相似性。在构建各种应用系统如搜索推荐系统时,常常需要在大规模、高维度的向量上进行相似特征检索。为了解决这类大规模高维向量上的相似特征检索问题,各种近似最近邻搜索算法被提了出来。尽管存在各种各样的近似最近邻搜索算法,实际应用中的相似向量检索仍然存在不少困难。首先是面对种类繁多的近似最近邻搜索算法,如何针对具体应用场景选取适合的应用算法。其次对于召回率要求极高场景,现有很多算法都是不适合的。最后是对于大规模数据进行相似特征检索的时候,算法构建的索引模型会占用大量内存,如何减少构建的索引的大小。本文将上述问题总结为通用场景下近似最近邻搜索算法的选择问题,以及内存资源受限的情况下如何有效降低索引模型大小的问题。对于前者,HNSW算法是目前的主要选择,但是仍然存在问题。针对上述问题,本文做了以下工作:（1）对于HNSW现有的节点删除方法存在的节点大量删除之后部分搜索请求返回结果数量不足的问题,本文提出了新的节点删除算法HNSW MutualRemove,成功且高效地解决了该问题。此外,本文的实验结果也表明基于GPU加速的线性扫描算法也拥有接近HNSW的性能,非常适合于对召回率要求极高的场景。（2）对于近似最近邻搜索算法所构建的索引模型内存占用大的问题,本文基于HNSW对其进行了深入分析。本文认为可以分别采用对高维向量进行压缩以及采用更加轻量级的组织数据的数据结构来解决该问题。IVF-HNSW算法虽然结合了以上两点对索引大小进行了极大比例的压缩,但是其构建速度慢。对此本文提出了新的索引构建方法,我们称之为Balanced IVF-HNSW。该方法在大幅加快索引的构建速度的同时仍能够保证较高的召回率。（3）成功将上述优化后的算法应用到微信大规模分布式近似最近邻搜索组件Sim Svr中,该组件能够完成对数十亿级规模的数据的高效索引与检索,已经广泛应用于微信搜一搜、看一看等业务中。本文的实验结果以及相关算法在Sim Svr中的应用经验表明,本文提出的HNSW Mutual-Remove成功解决了HNSW缺少适合的节点删除算法的问题,有效提升了HNSW的稳定性,同时本文提出的Balanced IVF-HNSW有效加快了IVF-HNSW构建索引的速度,让IVF-HNSW在内存资源受限场景下变得更加实用。

其他文献

布尔加科夫剧作《图尔滨一家的日子》和《逃亡》的时空体特色研究

学位

宜昌市石板溪社区自治探究

学位

势能回收式液压抽油机的设计与分析

石油是现代生产与生活中的重要原材料,大到各种机械设备的能源动力,小到日常生活中的各种化妆品,均离不开石油的身影。抽油机作为当代采油过程中的核心设备,在汲取石油的过程中需要消耗大量的能量,存在着能量损耗大,利用率低等问题。本文主要研究一种节能高效的液压抽油机,利用蓄能器来回收抽油杆下降过程中释放的重力势能,并将其利用在抽油杆的上升阶段,达到节省主泵功率的目的。本文首先通过对液压抽油机相关文献的查阅,

学位

液压抽油机节能率ANSYS分析AMESim仿真PID控制

早期中国电影在新加坡的传播与接受（1920-1932） ——以《叻报》为中心的考察

学位

“神聚”：Rambles Round Shanghai汉译中的“聚合”技巧

学位

论欧阳江河长诗写作的思辨特征

学位

地方政府食品安全监管问题研究 ——以宜昌市创建国家食品安全示范城市为例

学位

柔性超声振动辅助加工系统的设计及实验研究

光学镜片、大型反射镜、精密轴承、仿生骨骼、涡轮机叶片、半导体器件等多种关键零部件影响着国民生活、国防事业与科技发展。提高核心零部件制造能力的关键在于提高技术与装备能力。以超声技术与磁流变技术为代表的先进加工技术与多种学科进行融合,分别在一定程度上提高了零件的表面精度与加工效率。超声加工技术具有高频冲击与断续切削特性,不仅能改善工件表面质量,还能改变其应力分布与减少热量产生。超声振动加工技术常用于刚

学位

柔性系统超声振动控制理论数值方法去除效率表面质量

我国环境保护税改革研究 ——以宜昌市排污费实施情况为例

学位

物流信息系统质量多角色评价方法及其应用研究

近年来,通过物流信息系统增强物流企业及其提供的物流配送服务成为物流未来重要发展方向之一。电商网站及物流服务商基于物流信息系统的支持,由此带来的最后一公里体验及精准物流服务对用户体验的提升起到积极作用。与此同时,在物流信息系统逐渐广泛应用的背景下,物流信息系统建设的是否成功直接关乎是否会带给投资方经济损失,也极大地影响着信息系统使用者的物流信息传递及业务运营效率。目前,物流信息系统的实际建设面临着4

学位

物流信息系统质量多案例研究层次分析法信息系统成功模型多角色评价指标体系

近似最近邻搜索算法研究与应用

其他学术论文