分布式在线旅游搜索爬虫系统设计与实现

被引量 : 6次 | 上传用户:bindao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术和旅游业的蓬勃发展,特别是近年来人们生活水平的提高以及在线旅游业的兴起,越来越多的用户倾向于网上订购在线旅游线路出游。由于在线旅游线路网页的急剧增多,在线旅游搜索引擎己经成为当前搜索引擎发展的一个重要的研究方向。本文首先介绍了分布式在线旅游搜索爬虫系统的研究背景及意义、网络爬虫的研究现状等知识,结合搜索引擎的工作原理以及分布式网络爬虫的相关技术和策略,对本系统中需要用到的关键技术做了详细的分析与研究,其中重点研究了分布式任务分配策略及粒度选择、URL去重技术和在线旅游线路网页的更新策略,并根据旅游线路网页的特点,提出了一个专门针对在线旅游线路网页的判别算法。在以上这些关键技术和策略的基础上,设计并实现了一个以用户对在线旅游线路网页搜索需求作为研究背景,以互联网上的旅游度假平台网站和普通旅行社网站内容作为旅游线路信息的采集对象的分布式在线旅游搜索爬虫系统。在系统设计部分,本文按照实现的功能将分布式在线旅游搜索爬虫系统划分成了四个主要模块,分别为控制服务器、爬虫服务器、索引检索服务器以及数据库模块,并对各个模块的结构进行了详细的描述,同时给出了类图设计。最后,详细介绍了控制服务器和爬虫服务器的实现过程,并使用JAVSA作为开发语言,以T0mcat+Apache+MySQL作为开发环境,实现了整个系统。为了验证整个分布式爬虫系统的可行性,本文在最后部分使用了5台服务器搭建运行测试环境,对系统进行了功能和性能测试。通过对在线旅游线路网页判别算法准确性进行测试,结果表明该算法能有效地判别一个网页是否为在线旅游线路网页,其准确率达到了90%左右。运行测试结果表明,本文所设计的分布式在线旅游搜索爬虫系统无论是以单台服务器运行,还是整体运行,都能够稳定、高效地采集在线旅游线路网页信息,并根据线路标题建立倒排索引,使用户可以通过一个基于WEB的图形界面方便地检索到所需要的旅游线路信息,达到了设计的目标,对旅游业的信息化有着重要的实际应用价值。
其他文献
杧果(Mangifera indica L.)是中国乃至世界主要的热带水果之一,在广西百色右江河谷地区大面积种植。炭疽病和蒂腐病是引起杧果采后腐烂的主要病害,但不同杧果品种对炭疽病、蒂
<正>人类社会发展史就是一部寻梦、追梦和圆梦的历史。富强、民主、自由、平等、文明、体面而尊严的生活,是世界各国职工群众的普遍价值追求。"中国梦"这个生动的词语在中国
阐述运动锻炼对老年人各器官系统的影响,认为从生理学的任一角度看,适当负荷强度和负荷量的体育锻炼会使人体各器官系统的生理功能加强,机体抵抗力提高,减低各种慢性病的危险
<正>1.统计学符号:按GB/T 3358-2009《统计学词汇及符号》的有关规定,统计学符号一律采用斜体排印。常用:(1)样本的算术平均数用英文小写x(中位数仍用M);(2)标准差用英文小写
健康保障是公民享有的基本生存权利,公立医院作为医疗卫生供给的主导,在维护公众健康和提供医疗卫生服务方面发挥着关键作用。随着计划经济向市场经济体制的转变,医疗卫生政
中国实行改革开放以来,经济发展速度令世界瞩目,城市化进程的步伐也随之加快,然而伴随着大规模的城市扩张和旧城区改造,城市房屋拆迁问题越来越受到关注。城市房屋拆迁是关系
随着利率市场化进程的不断推进,贷款及其他资产的定价问题开始被各金融机构关注,并成位各金融机构之间竞争的重要手段。农村信用社是我国金融体系的重要组成部分,是目前农村金融
地铁建设为地铁施工企业带来了良好的发展机遇,也带来了更加激烈的市场竞争。在这种背景下,地铁施工项目的利润率也在不断的受到挤压,如何在保障质量的前提下,通过挖掘内部管
表面与水的接触角至少要达到130°,此时表面具有显著的憎水性,才能实现自清洁。对于玻璃表面,具备自清洁特性尤为重要。本研究基于固体表面的润湿性原理,利用溶胶-凝胶法和液相法
目的探讨首发抑郁症、复发抑郁症患者血清甲状腺激素和性激素水平的变化,了解抑郁症的发病机制并为其临床治疗提供理论依据。方法采用病例对照研究的方法,按照《国际疾病和相