基于倒排索引的压缩算法性能研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:jxysb250
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这个信息爆炸的时代,每天都会产生成千上百万的新信息,反映在因特网上,是网页数量的急剧增长。如何在巨量级的信息集合中,高效的定位、查找所需的目标信息,这使得搜索引擎成为当今最热门的技术之一,也对搜索引擎的性能提出了更高的要求。搜索引擎的索引结构与它的性能密切相关,倒排索引是搜索引擎使用最为广泛的索引保存形式,它将“关键词”作为搜索的起始,追踪包含该关键词的众多信息源。在倒排索引中把关键字(term)映射到包含该关键字的文档集合,对于每一个关键字,记录包含该关键字的文档标识,文档内频率以及文档内位置信息:term->( f d ,t, d i, [ p0 ,…p freq?1 ])……。本文所进行的索引压缩算法的研究是在该索引结构基础上进行的。采用索引压缩技术不仅能够减小索引的容量,同时也能提高查询性能。其优势在于压缩后的索引需要的存储空间较少,并且压缩后的数据能更好的利用通信带宽,相比未经压缩的数据,每秒能传输更多的信息量。基于快速解压的方案,传输和解压压缩后数据的总时间代价比传输未经压缩的数据时间代价要小的多。在检索过程中,通常在内存中对倒排列表进行缓存,可提升查询响应的性能,在缓存容量相等前提下,能容纳更多以压缩形式存放的倒排信息,从而提升缓存的命中率及查询响应速度。本文所作的是在开源信息检索系统Lucene上,实现Variable-Byte、Simple9、PForDelta详尽评测,关注文档号、频率、位置信息在Lucene的word-level倒排索引中压缩存放。近年来有一些新的压缩算法提出,但还没有文章在基于Java环境,流行通用,影响广泛的Lucene中来评测实验算法。本文的工作主要有1)改进具有最快解压速度PForDelta的实现,在保证不降低算法解压速度的前提下,提升了算法的位使用率,并加以实验验证。2)探讨在Java环境由if-then-else结构导致的分枝预测对Java程序的性能影响,在JVM中运行的程序弱化了分枝预测带来的性能损害。3)接着修改Lucene的索引结构,研究数据存放是否间隔分布对算法压缩比率和解压性能的影响。4)在本文的最后全面比较算法的压缩比率及关键字和短语查询性能,对实验结果进行分析。从实验结果可以看出,在各个数量级的文档集合上,Variable-Byte表现最为稳定,并且在基于跳跃机制的短语查询中有最好的表现。Simple9有最好的压缩比率,但由于Java环境对分枝预测性能损害的弱化,其查询性能比其他两个算法要差。PForDelta在解压代码的关键区域去除if-then-else程序结构的基础上,获得了最快的关键字查询时间。当保证数值的非间隔分布后,Simple9和PForDelta的关键字查询有5%—8%的提升。由于跳跃查找的机制,在短语查询中批量解压的Simple9和PForDelta表现不佳,但随着倒排列表的增长,PForDelta短语查询的性能逐渐提升。
其他文献
认知无线电作为一种新兴的技术,研究的历史很短,不超过10年时间,但其在解决无线电应用需求与频谱资源稀缺的矛盾上潜力巨大,吸引越来越多的网络研究人员的关注。目前无线网络
在一个执行站内换乘的城市轨交网中,各线路晚间末班车的运营时间没有承接性,经常发生乘客购票后无法经换乘抵达目的站的尴尬情况。随着城市轨交网的规模越来越大,换乘路径的
随着无线通信技术的演进和终端芯片集成度的发展,终端装备有多个网络接口已经成为一种趋势,异构网络环境下的多连接技术成为了新的研究热点。多连接技术的研究目标是通过多个
随着互联网技术的发展,网络英语教学系统应运而生并快速发展起来。现在网络上流行的在线学习系统各式各样,其基本的功能大体一致,主要实现大量信息的共享和师生的在线交流。
随着信息技术的发展,大规模数据共享与协同工作环境已经成为主流应用普遍采用的工作模式。同时,以网格计算为基础的科学活动环境已经成为当前国际计算机技术研究的热点和前沿领
随着计算机和通信技术的快速发展,嵌入式系统已经广泛的应用到科学研究、工业控制、军事技术以及人们的日常生活等各个方面。因此,随着嵌入式系统应用领域不断扩大,在应用中
人脸作为人类内心世界的直接体现,具有相当重要地位。三维模型作为人脸在计算机中的表示,因此受到了很多研究机构的重视,被应用到了很多专业及非专业的领域。所以如何建立一
随着科学技术的迅猛发展,全球每年新产生的数据正以指数规模增长。惊人的数据信息增长趋势导致以网络为中心的存储结构和存储技术得到快速发展。而以网络为中心的存储技术快速
数据挖掘能够发现隐藏在海量数据背后的潜在模式以及规则,有利于我们更好的作出决策,被广泛应用于商业、科学研究以及医学研究等领域,但是如果对数据挖掘利用不当,可能会对隐
近年来,随着无线通信业务和数据业务的发展,往往需要知道处于一些室内环境如机场大厅、展览馆、监狱、医院等中人员或物体的位置信息。在这种情况下,室内定位技术逐渐成为当