时空高效的倒排索引压缩和求交算法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户：baobaolan1007

【摘要】

：

随着互联网的发展,各类信息的体量规模增长也越来越快。日益壮大的数据体积和用户数量也为各类信息系统,尤其是搜索引擎带来了严峻的考验。应对这类挑战的关键措施是提升系统

【作者】

：

宋省身

【出处】

：

国防科技大学

【发表日期】

：

2018年01期

【关键词】

：

倒排索引索引压缩算法索引求交算法最短路径问题并行优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的发展,各类信息的体量规模增长也越来越快。日益壮大的数据体积和用户数量也为各类信息系统,尤其是搜索引擎带来了严峻的考验。应对这类挑战的关键措施是提升系统在数据爬取收集、整理压缩以及查询应答的效率,而倒排索引作为信息检索底层最常用的数据结构,(负责对信息进行组织管理和查询处理),对检索效率和系统运营成本有着至关重要的影响。因此,针对倒排索引的压缩和查询优化已经成为信息检索领域一个重要的研究课题。为此,本文针对倒排索引的压缩和查询效率问题,重点研究了设计时空高效的压缩算法和并行求交算法。本文的主要成果如下:1.为了提升压缩算法的压缩速度,本文将面向分块的压缩算法所使用的分块划分问题归纳为了在单源有向无环图上的最短路径问题,并改进优化了AFOR和VSEncoding压缩算法所使用的分块划分策略,包括为AFOR增加分块的折叠合并和使用近似算法替代VSEncoding的动态规划,提升其压解速度的同时维持了相同水平的压缩率。本文还提出了自启发式划分的Elias-Fano索引压缩算法,针对PEF索引使用多个滑动窗口反复遍历倒排链的缺点,该方法根据分块的长度和压缩代价增量的变化,仅需一个滑动窗口探测异常值并完成划分,在损失了轻微的压缩率和解压速度的代价下,极大地提高了压缩速度。实验结果表明,本文提出的压缩算法相比优化前的算法在压缩/解压缩速度-压缩率对应的时空曲线上能达到更优的位置。2.本文提出了双权重标准压缩算法的概念,针对近年来融合多种压缩算法的混合式索引,本文将最优地分配压缩算法到各个分块的问题,归纳为了资源受限的双权重有向无环图的最短路径问题,对应的权重为压缩大小和解压缩时间,并借助于拉格朗日松弛算法寻找压缩算法的最优分配方案。相比于现行的方案,本文的算法仅需要O(n log n)的时间和O(n)空间进行求解,同时结果与最优解之间仅保留加性误差。除此以外,我们还探索了使用动态规划对倒排链进行变长分块,将完成分配的分块按照相似度准则进行合并,进一步提升了查询效率。实验结果表明,本文提出的压缩算法分配算法能够动态地调整倒排索引的时空特性,使之适应实际应用中索引设计者对空间/时间的任一要求。3.针对倒排链的求交算法,本文首先回顾了传统的多倒排链求交算法以及近年来提出的基于SIMD的并行求交算法,归纳分析了影响求交算法的两个因素,即排除项选择方式和倒排链的搜索算法。由于当前基于SIMD的并行求交算法都是针对倒排链两两相交设计的,并未利用到传统的多倒排链求交算法。为此,我们提出了基于SIMD的多倒排链并行求交算法,由于它采用线性搜索,对于长倒排链的效果并不是很好。为了继续提高算法效率,我们首先研究了使用AVX2提供的收集指令同时收集倒排链中离散位置的元素与排除项同时进行比较,用于加速跳查过程;随后提出了基于双尺度自适应变换搜索窗口的搜索算法,相比于先行算法简单地使用经验参数,我们的搜索算法更针对参与倒排链的长度自动匹配最优的搜索参数,极大地提高了倒排链求交的性能。

其他文献

基于短文本处理算法优化的文本信息推荐系统的设计与实现

"麦圈"作为推荐聚合类资讯产品,以"微博"用户行为数据包括发布、分享、转发等数据为基础,构建用户兴趣模型,并依赖于该模型向用户定向推荐资讯类内容。如何为用户精准的推荐

学位

短文本特征词K-means聚类算法用户兴趣模型文本推荐系统

用政策红利纾解中小企业“成长的烦恼”

<正>近日,湖南省促进中小企业发展工作领导小组印发《关于促进中小企业健康发展的若干措施》,从深化"放管服"改革、解决融资难题、引导企业专精特新发展等三个方面,提出18条"

期刊

中小企业政策红利

简述美加大停电及广东电网的问题与对策(一)——大停电前的电网态势及停电起因

本文阐述2003年8月14日美加大停电的过程及事故经验教训,同时分析广东电网面临的一些问题,并提出对策.

期刊

美加大停电事故教训广东电网问题对策

基于SCA技术的高时间分辨MRPC读出电子学研究

粒子鉴别是粒子物理实验中一个重要的内容,而飞行时间(Time of Flight,TOF)探测是一种有效的粒子鉴别手段。多气隙电阻板室(Multi-gap Resistive Plate Chamber,MRPC)广泛应

学位

飞行时间测量MRPC高精度时间测量波形数字化开关电容阵列

欠驱动AUV编队跟踪控制研究

欠驱动AUV编队跟踪控制是多AUV协同跟踪控制的基础,基于一定控制方法设计可靠稳定的控制系统对保障编队成功完成预期水下作业任务具有重要现实意义。本文以多AUV为研究对象,

学位

欠驱动AUV编队级联模糊动态面领航者-跟随者

高质量发展下的酒业新营销

9月28日下午,2018中国千商大会·大连酒业峰会“高质量发展下的中国酒业新营销”分论坛在大连国际会议中心举行。中国酒类流通协会专职副会长刘员,中国千商大会组委会办公室

报纸

日本土壤处理剂的开发现状及普及

土壤熏蒸剂溴甲烷除对几乎所有的土壤病害、线虫、土壤害虫有较高的防效外,对杂草也有相当的效果,并已使用了很长的时间。但自1992年在蒙特利尔协议上,溴甲烷被指定为破坏臭

期刊

土壤处理剂异硫氰酸氯化苦杀线虫剂碘甲烷开发现状

“一带一路”国际多式联运建设成果及发展趋势展望

国际多式联运是指将两种及两种以上运输方式通过一整套的合理运输方案有机地组合起来,构成一种连续的综合性一体化货物运输。90%以上的多式联运是运用集装箱操作。国际多式联

期刊

一带一路”国际多式联运建设成果发展趋势

我国农业管理存在的问题及对策

分析目前我国农业管理过程中存在的一些问题,并针对我国农业管理体制落后、农业科技发展缓慢、耕地质量下降和农业生产成本上升等问题提出了相应的对策。

期刊

农业管理管理体制农业科技生产成本

语文教学中导语设计的原则及导入方式

在课堂教学中，要培养激发学生的兴趣，首先应抓住导入课文的环节，一开课就要把学生牢牢地吸引住。课的开始好比提琴家上弦，歌唱家定调，第一个音定准了，就为演奏和歌唱奠定了基础。上

期刊

初中语文教学导语设计原则方法

时空高效的倒排索引压缩和求交算法研究

其他学术论文