基于自学哈希的信息检索

被引量 : 0次 | 上传用户:flexhansen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今的社会已经进入信息时代,而信息已经渗入到了各行各业,无论是工业,农业,教育业,还是政府各个部门,都已经对信息有着深深的依赖性。那么成功的、高效率的信息检索,则往往能达到事半功倍的效果。首先,信息检索为各种科学研究指明了方向,在整个大的科学体系中,各项活动都离不开人们对于信息的查询;其次,在时间方面,信息检索也使得科研工作方便了许多,因为这样会节省大量的时间,从而也会避免了很多不必要的麻烦。相似搜索问题,也被认为是最近邻域搜索、近似搜索或者是近似项搜索,它是找出一个与查询文件最为近似的项出来,这个项被称为最近邻域,它与被搜素的数据库中存在一定的的距离。尽管对于提前就已经给出的文件来说,一些最近被提出来的技术都可以产生高质量的代码,但是对于那些先前看未知的文件来说,获得关于他们的代码仍然是一个具有挑战性的问题。对于现存的方法来讲,它们或者存在着非常高的计算复杂度,或者就是需要数据分布实施非常严格的假设。在本篇文章中,首先对相关的技术进行了介绍,其中先对相似搜索进行了介绍,并且对其重要性进行了说明;紧接着对哈希算法进行了介绍,其中分别从哈希表查询以极快速距离近似两点进行介绍;最后详细的介绍了当今常用的哈希技术,其中有LSH(局部敏感哈希)、RMB(堆叠玻尔兹曼机)等等;接下来,我们着重介绍了谱哈希算法以及SVM分类,并且将二者相结合,在此基础之上应用了自学哈希。其中,谱哈希主要介绍了普调和以及样本外的拓展两个方面,而SVM则主要介绍了其原理,在此基础上进一步的进行了理解。研究这个问题,并且对于语义哈希算法,提出了一个新颖的自学哈希方法。本文所使用的相似搜索方法——自学哈希,分为两个阶段,它们分别是:二进制代码的有监督学习以及哈希功能的无监督学习,通过这两个阶段,我们得以快速的、高效的对文件或者图片进行快速的检索。最后,本文在真实的数据库中,对自学哈希进行了实验,并且分别于LSH、LCH与谱哈希等比较先进的哈希算法进行了比较,从实验结果中也看出了自学哈希的优越性,它的搜索精确度,远远高于其他的哈希算法。文章的最后进行了总结,并且也进行了展望,自学哈希还有很多的应用方向等着我们去拓展。
其他文献
<正>作品主题:建始猕猴桃产业品牌形象设计设计说明:2012年华中农业大学以建始县优势特色农业资源的综合开发利用作为扶贫攻坚的主要方向,实施了猕猴桃产业精准培植。通过实
多孔陶瓷具有孔隙率高、比强度高、密度低和热导率低的优点,其重要应用之一是作为高温绝热材料。但是,目前常见的多孔陶瓷绝热材料(SiO2、Al2O3、YSZ和莫来石多孔陶瓷等)存在
自从20世纪80年代开始,计划生育作为我国一项基本国策,开始全面推广实施。计划生育国策为我国减少人口数量、提高人口素质,实现人的全面发展做出了贡献。宣传计划生育国策,使
<正>当今电化教学已逐渐应用于幼儿园的各种教育活动中。在幼儿园语言教育活动过程中,应如何充分运用多媒体教学手段,将学习材料及辅助材料演绎得声情并茂、出神入化,处理得
目的对小儿病毒性脑炎的护理干预措施与效果进行讨论。方法将92例患儿分为研究组和对照组,两组均进行常规护理,同时,研究组在护理过程中还进行改良的干预护理措施。结果研究
踵繼鄭樵,戴侗肆力倡導六書之學,撰《六書故》,該書依據六書分類法,打破了《說文》分部體例,將所收之字依字義所屬分為九大類,重新釐定《說文》部首,並首次據金文以析字義。然自問世
"一带一路"倡议是基于"区带"范式下对中国特色马克思主义区域经济学理论的创新,其着眼点在于沿线国家共同发展、国际区域差异实现共赢以及实现世界各国文化的交流等等。因此,
本文试图回答司法文明是什么、司法文明由什么构成、司法文明的标志是什么这几个问题,希望通过对这几个问题的回答,尝试构建司法文明的基本理论框架。为了解答上述问题,笔者采用
目的对保守治疗子宫切口妊娠的综合护理干预进行探讨。方法选取我院2010年7月~2012年7月期间采取保守治疗的子宫切口妊娠患者60例,在患者同意的情况下随机分为对照组和观察组,