多核平台索引压缩及请求处理并行算法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:WAYA123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对日益增长的海量网页数据和更大规模的用户查询请求,如何保证较高的处理效率是当代搜索引擎面临的严峻挑战,同时也是信息检索系统始终需要解决的核心问题。另一方面,现代处理器中的多核架构日趋成熟,这为搜索引擎这种计算密集型应用提供了更强的硬件支持。目前主流处理器中的单指令流多数据流(Single Instruction Multiple Data,SIMD)指令,能够在较短的时间内完成更多的数据运算,从而实现加速效果。  针对上述问题和背景,论文结合现代处理器中的并行架构,在总结前人工作的基础上,提出了适用于SIMD结构的倒排列表求交及倒排索引解压的并行算法。具体来说,论文探讨了相关算法原理,结合Intel处理器平台的SIMD流技术扩展(Streaming SIMD Extensions,SSE)指令集及高级矢量扩展(AdvancedVector Extensions,AVX)指令集进行优化,提升了查询处理效率,并在压缩处理上取得明显效果。论文研究工作主要包括以下两个方面:  第一,倒排列表求交过程中,搜索算法往往会成为性能瓶颈。SSE指令集中的字符串搜索指令,可以充分利用并行优势加速搜索计算。本文选择了适合SIMD结构的两种求交算法进行改进,即哈希分段和线性回归。从实验结果上看,上述两种改进算法都取得了明显效果。  第二,对于搜索引擎来说,如何将倒排索引更多地存入内存同样是影响性能的关键。为了解决这个问题,通常需要对倒排索引进行压缩。由于索引压缩一般在预处理阶段完成,相比于压缩速度,压缩算法的压缩比和解压速度对搜索引擎而言更加重要。论文在分析现有压缩算法的基础上,结合SSE和AVX指令集,提出了适用于SIMD并行结构的解压算法。实验结果表明,改进算法在保持较高压缩比的同时,解压速度得到了明显提升。
其他文献
计算机和网络的迅速发展,不断推进社会信息化进程,数据的重要性愈发引起相关人士重视。而信息系统面临地震、洪水、战争等诸多灾难性的风险和威胁,如何建立容灾系统,保证数据
遥感影像的自动分类是模式识别技术在遥感技术领域的具体应用。在与统计分类方法的比较中,神经网络方法体现出了巨大的优越性。人工神经网络不需要预先假设样本空间的参数化
随着无线ad hoc网络的不断发展,多径路由问题和QoS路由问题成为其研究的热点和难点。概率分析进化算法是将构造性模型引入进化算法进行研究而形成的一类新型进化算法,其中贝
随着计算机技术进步,特别是网络技术以及相应的网络应用的飞速发展,对于视频编码技术也有了更高的要求。现有的视频编码标准如MPEG-4、H.264等已经在视频编码的性能上取得了
本文对基于网络的问答系统进行了研究。文章设计与实现了一个基于网络的中文问答系统。该系统只利用网络搜索引擎返回结果中的摘要部分作为答案抽取的资源,从而节省了下载、分
随着我国电信业的发展,积累了大量的话务数据,对这些数据进行分析,找出其中的规律,然后进行预测,有助于做出相应的科学决策,对电信业的发展有重要意义。 话务数据可以看成是一类
对等(Peer-to-Peer,P2P)系统是一个迅速发展的研究领域。P2P系统的应用已从传统的文件共享领域逐步扩展到更广泛的广域分布计算领域,因而需要P2P系统提供确定性定位与低查询
随着信息技术的不断发展,采用计算机技术对过程进行控制和管理日益受到企业和组织机构的重视。传统的业务流程控制软件往往是针对一个应用进行定制,业务流程都被硬编码到应用程
随着网络技术的快速发展和网络规模的不断扩大,传统的IP网络仅提供“尽力而为”的服务,无法满足多媒体应用和各种用户对网络传输质量的不同要求。在资源共享环境中,一定会有各共
由于空间密度场可用来描述人群的动态运动和分布规律,对密度场导向下的人群仿真研究已成为新的热点。本文从密度场的获取、路径规划和碰撞避免算法等方面,提出了一种基于空间