搜索引擎中查询处理及结果缓存技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yykk110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,搜索引擎成为海量网络资源中快速准确获取信息的必须工具。在不断增长的网页数据和各种用户大量请求情况下,搜索引擎需要在秒级时间内从海量的网页数据中处理成千上万的并发查询请求,因此搜索引擎的性能面临着巨大的挑战,如何提升分布式搜索引擎的扩展性和系统性能已成为当前研究的重点。本文针对搜索引擎架构、查询算法以及查询结果缓存等关键技术问题,深入研究和讨论如何高效地处理查询,提高分布式搜索引擎性能。在总结前人工作的基础上,按照主题对索引和文档进行分类,优化查询处理算法,提出改进的查询结果缓存策略和预判断机制,提高搜索引擎的查询性能和系统的扩展性。本文主要研究内容可概括如下:1.针对分布式搜索引擎架构和索引划分问题,提出一种基于页面结构的主题分类方法,建立查询任务并行的可扩展模型。首先,利用页面结构区分不同内容中主题信息的重要度,按照主题和近似URL对网页数据进行分类,建立各个类别的索引和文档,对相应的索引和文档数据按照类别管理。其次,设计一种多线程任务池,对各个类别的索引和文档实现并行化查询。最后,实验结果的对比表明改进模型按照类别进行查询,具有针对性查询优势,能够降低平均查询时间,提高系统吞吐量,减少每个查询的检索范围,使得系统具有良好的扩展性。2.针对搜索引擎查询过程中倒排表合并的工作,提出一种具有位图结构的倒排索引结构,并在此结构上给出一种基于最大得分策略的并行查询优化算法。首先,基于跳表的倒排索引结构,设计位图结构记录倒排词项的文档检索编号,有效降低倒排表合并的查询时间复杂度。其次,依赖于改进的倒排索引结构和经典的查询算法,根据最大得分策略思想,并结合词项堆和结果堆,实现一种快速查找倒排索引的查询处理方法。最后,为了避免了进程切换开销,设计一种动态管理多线程方法,实现倒排词典的并行化查询算法。实验结果表明改进代理位图结构和查询算法能够提高索引节点的平均查询速度和吞吐量;同时设计的多线程方法,提升了索引节点层的查询性能。3.为了进一步提高搜索引擎的查询性能,针对缓存策略的不足,分别对静态和动态缓存的策略进行了优化,并针对混合缓存内部提出一种自适应容量分配算法。首先,分析查询过程和查询日志的局部性,引入查询重复距离因素对静态缓存策略进行改进。其次,考虑查询的热度和新鲜度机制,描述了缓存价值概念,并设计一种新鲜度衰减机制进一步改进了动态缓存策略。最后,基于队列链表的缓存结构,在静态和动态缓存之间提出一种自适应动态调整容量分配算法,进一步改进了混合缓存的效率。实验分别从静态、动态和混合策略的查询结果缓存三个方面比较,验证了改进的缓存策略和相关算法能够增加系统整体性能,尤其是在降低平均查询时间方面更加明显。4.根据查询结果缓存的静态和动态缓存策略,结合页面缓存和文档编号缓存,构建一种新的混合查询结果缓存方法;考虑索引持续更新会导致缓存结果陈旧,提出一种预判断机制,提前判断缓存的命中情况和新鲜度;设计一种Queue-Hash构成的缓存结构并采用双指针跳表,实现查询结果缓存的快速查找;提出不完全分配缓存空间方法,改进了缓存频繁换入换出现象。通过真实数据的模拟验证,提出的混合查询结果缓存比单独的页面缓存或文档编号缓存效率高;设计的预判断方法能够维持缓存新鲜度,提高缓存的准确度;选择合适的不完全分配方法,使得缓存的性能能够进一步提高。综上所述,本文针对搜索引擎的查询性能问题,从查询模型结构、查询算法、查询结果缓存等方面进行优化和改进。还需要更深入地研究查询分类或者聚类方法,考虑索引剪枝策略,建立一种更广泛的分布式缓存策略和预测模型。
其他文献
编译器是将高级语言编写的程序转换到能在目标平台上运行指令集的重要系统软件。但是,由于高级语言的规范复杂,多以自然语言描述,导致编译器编写者在实现语言时,对一些模糊的
在回顾我国已有运动心理学测量计算机化尝试的基础上,结合维也纳心理测试系统(Vienna Test System)若干分测验的理论构想与技术路线,探讨了心理测试的计算机化在今后运动心理
混沌作为20世纪物理学里辉煌的科学奇迹之一,引起了国内外科学家们的广泛关注。混沌反控制(混沌化)是混沌理论研究的重要课题,连续时间系统反控制取得了一些相关结果,但尚未
计算机技术和互联网的飞速发展为三维数字媒体的访问和使用提供了极大的便利,同时也给三维数字媒体的版权保护带来了问题。数字水印技术通过向三维数字媒体中嵌入水印信息,为
近年来,光声成像因其兼具高灵敏的光学对比度和大超声穿透深度的优点而越来越受到临床与产业的关注,成为当前生物医学领域发展最快的医学成像技术之一。光声显微成像技术以其