论文部分内容阅读
当今的社会已经进入信息时代,而信息已经渗入到了各行各业,无论是工业,农业,教育业,还是政府各个部门,都已经对信息有着深深的依赖性。那么成功的、高效率的信息检索,则往往能达到事半功倍的效果。首先,信息检索为各种科学研究指明了方向,在整个大的科学体系中,各项活动都离不开人们对于信息的查询;其次,在时间方面,信息检索也使得科研工作方便了许多,因为这样会节省大量的时间,从而也会避免了很多不必要的麻烦。相似搜索问题,也被认为是最近邻域搜索、近似搜索或者是近似项搜索,它是找出一个与查询文件最为近似的项出来,这个项被称为最近邻域,它与被搜素的数据库中存在一定的的距离。尽管对于提前就已经给出的文件来说,一些最近被提出来的技术都可以产生高质量的代码,但是对于那些先前看未知的文件来说,获得关于他们的代码仍然是一个具有挑战性的问题。对于现存的方法来讲,它们或者存在着非常高的计算复杂度,或者就是需要数据分布实施非常严格的假设。在本篇文章中,首先对相关的技术进行了介绍,其中先对相似搜索进行了介绍,并且对其重要性进行了说明;紧接着对哈希算法进行了介绍,其中分别从哈希表查询以极快速距离近似两点进行介绍;最后详细的介绍了当今常用的哈希技术,其中有LSH(局部敏感哈希)、RMB(堆叠玻尔兹曼机)等等;接下来,我们着重介绍了谱哈希算法以及SVM分类,并且将二者相结合,在此基础之上应用了自学哈希。其中,谱哈希主要介绍了普调和以及样本外的拓展两个方面,而SVM则主要介绍了其原理,在此基础上进一步的进行了理解。研究这个问题,并且对于语义哈希算法,提出了一个新颖的自学哈希方法。本文所使用的相似搜索方法——自学哈希,分为两个阶段,它们分别是:二进制代码的有监督学习以及哈希功能的无监督学习,通过这两个阶段,我们得以快速的、高效的对文件或者图片进行快速的检索。最后,本文在真实的数据库中,对自学哈希进行了实验,并且分别于LSH、LCH与谱哈希等比较先进的哈希算法进行了比较,从实验结果中也看出了自学哈希的优越性,它的搜索精确度,远远高于其他的哈希算法。文章的最后进行了总结,并且也进行了展望,自学哈希还有很多的应用方向等着我们去拓展。