高并发查询条件下动态在线全文索引技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:k413287823
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的高速发展,互联网信息量变得越来越庞大并保持高速增长。同时,互联网的用户规模也快速的增加,网民需要一种有效的工具快速的获取信息。搜索引擎作为海量信息获取的主要工具,其用户规模和使用率因此也在不断的攀升。作为搜索引擎服务的提供商,索引了海量、动态的网页文件,面对的问题是如何在较短的时间内响应用户的高并发查询请求。  目前,主流的搜索引擎服务提供商采用分布式集群的方式分担用户的查询负载。但是为了获得全局最大的处理效率,单个节点处理能力的提高是十分必要的。本文利用爬虫采集的数据,进行在高并发查询条件下动态在线全文索引技术研究,将索引高并发快速响应的问题转化为查询结果读取不阻塞的问题。主要工作包括以下几点:  (1)对倒排表存储结构设计和压缩算法进行研究。对于海量数据来说,索引文件较大,不能一次性读入内存当中。因此系统需要通过查询内存中的词表,获得对应的倒排表在磁盘中的位置后再将倒排表读入到内存中。在高并发查询条件下,索引的压缩率和索引的解压速度在很大程度上决定了查询系统的效率。本文基于现有压缩算法的基础上,提出了自适应分块大小的VB_PForDelta压缩算法,平衡了压缩率和解压速度。实验证明,本文提出的方法具有较好的压缩率和解压速度。  (2)对缓存结构和替换策略进行研究。从磁盘中的索引文件中读出倒排表存入到内存中后,需要在内存有限空间内缓存一段时间。待下次查询时加速响应速度。本文提出一种基于历史记录特征的缓存结构以及相适应的替换算法HFC,通过查询语句历史出现频率以及查询语句的组成来判断是否是经常使用。通实验证明,本文的缓存能有效的提高命中率。  (3)基于以上的研究成果,本文构建了在高并发查询条件下快速响应的在线全文检索原型系统。该系统主要包含四大模块:数据采集模块,索引模块,查询模块,缓存模块,展示模块。力求系统设计合理,稳定,易于扩展。该系统为在线全文索引的并发查询问题的进一步研究奠定了基础。
其他文献
虚拟现实技术,是一项运用现代的计算机技术来构建的一个类似于客观环境、可以让人们沉浸其中并且自由驾驭的人机环境的技术。虚拟场景的绘制方法概括起来主要有两种,分别是基
目前,用户声誉系统被大规模应用于各种电子商务网站,每次交易中的双方用户通过交易后对系统的反馈信息,来达到对对方声誉值的影响,从而督促用户在交易中培养出好的行为,恪尽
随着信息技术的发展,在互联网上进行金融行为的人越来越多。在金融领域,每时每刻都有大量的信息通过互联网公布。由于网络本身所具有的信息量庞大、信息来源不固定、文本化表
随着计算机网络的飞速发展,人们的生活得到了巨大改善,同时安全问题日益凸显,不断衍生出内网、外网等复杂网络结构,单向传输系统是内外网数据传递的理想方式,但现有单向系统
手背静脉识别是一项新兴的生物特征识别技术,研究开始于二十世纪九十年代。相对于指纹识别、虹膜识别等技术,该技术起步较晚,系统开发还不够完善和成熟,但是凭借着非接触、活
心血管疾病关系全球的健康问题,医学影像技术是当前诊断疾病的主要手段,一个准确的血管可视化分割工具在临床中越加重要,应用广泛,例如疾病诊断,手术规划,疾病监控等。当今,
随着全球信息化进程的推进,无线射频识别(Radio Frequency Identification)技术已经在各个领域得到广泛应用,包括物流、交通运输、医疗保健、工业、  商业、金融、海关及政
随着互联网时代的到来,信息在传播途径上发生了翻天覆地的变化,人们可以轻易的从网络上下载海量数据,文本聚类作为一种有效的文本组织手段,可以帮助人们发现网路上热点的问题
近年来,搜索技术的发展推进了以搜索为基础的在线问答系统的出现,以及更高级的交互式问答系统在各个领域的应用。交互式问答系统是指人与系统之间能够用自然语言的形式,进行
移动设备中的实时手势控制方法研究,主要是通过文中提出的“基于运动肤色的混合模型”从实时视频信息中确定手势区域、提取手势对象,并通过数字图像的相关操作,优化提取到的