基于插值编码的数据空间倒排索引压缩方法的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:ecnuzk2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今科技发展迅速,互联网数据正在以惊人的速度增长。越来越多的人意识到处理如此大规模数据的重要性。搜索引擎作为当今重要的信息获取工具,在面对数据量剧增的网页信息时,需要对用户提出的查询给予高效并且准确的响应。搜索引擎中最重要的技术之一就是索引,而倒排索引是其中一种十分经典并且有效的索引结构。索引压缩可以有效地将数据量减少,这样一方面可以减少索引占用的磁盘空间资源,另一方面可以减少磁盘读/写数据量,从而减少用户查询的响应时间。因此倒排索引压缩的意义重大。本文的主要研究对象就是倒排索引。本文仔细分析了现有的位压缩、?编码、Golomb编码、插值编码等常用的倒排索引的压缩算法。探究各个压缩算法及其适用的场景,分析每个算法的优点与不足。在此基础上提出了一种改进插值编码的方法来提高数据空间中倒排索引的压缩效率和搜索查询效率。首先通过本文提出的新的相似度算法对文档集合进行预处理,新的相似度算法主要考虑了倒排列表中文档地址的相邻性,相比较传统的余弦相似度函数针对性更强,促使文档集合的排列更加符合本文提出的混合压缩算法;其次,针对插值编码的过程,本文对其进行了优化,首尾指针不进行压缩,从而提高了插值编码的压缩性能;通过分析插值编码和位编码各自的优缺点,插值编码更加适合倒排列表中地址相邻的情况但对辅助栈要求较高,而位编码更加适合高频词汇的倒排列表的压缩,为此本文提出了混合压缩算法,其包含了位压缩和插值编码的优点,并且利用位压缩的融合,克服了插值编码对辅助栈要求很高这一缺点。本文选取了结构化和非结构化数据验证混合压缩算法,实验结果表明:该索引压缩方法能够有效提高倒排索引压缩效率和搜索查询效率。
其他文献
随着数字信息的爆炸式增长,我们迫切需要采用更为高效的方法来查找所需要的信息,这种情况不仅仅是体现在互联网领域中,由于台式计算机的数据存储量也随着硬盘存储能力的提高
高质量推荐理由自动挖掘的研究问题是指在以用户为中心的基础上,在当今数据信息爆膨的背景下,以用户尽量少参与的情况下提出的一种服务式推荐系统技术理论。高质量推荐理由自
纹理分析是图像处理领域的基础性研究课题。随着纹理分析在实际应用中的发展,不变性纹理分析在很多领域都有不可替代的位置。其中旋转不变性纹理分类则要求将不同角度的同种
随着传统数据流聚类研究的不断发展和对数据不确定性的深入认知,学者们提出了针对不确定性数据流的聚类算法。由于不确定性描述的引入使得传统的数据流聚类算法并不能完全适
随着数据挖掘技术的发展,大量的数据被共享、发布用于数据分析,其中包含许多与个人相关的信息。如何在保证数据有效性的前提下,确保发布后数据的安全性一直是进行数据发布时
混凝土材料现世以来,随着经济的迅速发展,各种各样的建筑物层出不穷,越来越多的问题也相应暴露了出来。由于混凝土材料的多孔性及钢筋易锈蚀的特点,各个国家每年都在钢筋混凝土结构的锈蚀问题上浪费了很大一笔财力。BFRP材料由于其耐腐蚀的特点,成为一种创新的解决方案。但BFRP筋的弹性模量较小,使得BFRP筋混凝土梁容易出现较大的裂缝和挠度。为了解决钢筋混凝土梁的耐久性问题与BFRP筋混凝土梁正常使用时变形
随着经济的突飞猛进和信息时代的来临,移动通信和各式的电器设备更加普遍的运用于人们的生活以及周边环境,它为人们带来了丰富的科技财富以及前所未见的新科学,与此同时,更将
中枢神经系统(Central nervous system,CNS)轴突损伤是神经退行性疾病的主要诱因之一,临床上症状主要有记忆力衰退,主要相关疾病有老年痴呆症、抑郁症等。哺乳动物的神经元和
隐喻是人们日常生活中常见的语言现象,也是语言学领域研究的重要课题之一。隐喻不仅仅存在与语言中,同样存在于图像、声音、手势等不同的模态系统之中。平面公益广告是一种典型的多模态语料,包含语言和图片两种模态,并蕴藏着丰富的隐喻。因此,对公益广告的多模态隐喻进行研究具有理论及现实意义。本文以Forceville&Urios-Aparisi的多模态隐喻理论和Kress&Van Leeuwen
学位
随着计算机性能的不断提高,图像处理的应用也越来越深入到各行各业。数字图像处理中对于图像成分复杂的图像的处理尤为困难,且很多算法是只针对一类图像,当面对不同类别的图