论文部分内容阅读
主题爬虫(Focused Crawler,FC)是信息检索的核心技术,致力于从Web上尽可能下载更多与主题相关的网页,因此如何提高FC技术的全局搜索能力并设计一个高效、稳定且准确的爬虫系统尤为重要。气象灾害中的暴雨灾害和台风灾害频繁多发且造成的损失不可估量,Web中存在很多与气象灾害有关的文本信息。为了在众多网页中高效、准确地获取暴雨灾害和台风灾害的信息,本文针对暴雨灾害主题和台风灾害主题,利用Hadoop的大数据平台,研究设计了一个融合回溯隧道穿越法和本体的改进禁忌搜索策略的分布式主题爬虫(Distributed Focused Crawler,DFC)系统,主要研究内容和方法如下:1)针对FC技术中的主题描述问题,提出了一种构建领域本体来描述主题的方法。首先利用本体语义相似度构建主题语义权重向量,基于超级文本标记语言(HTML)位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度。在此基础上,进一步提出了一种基于页面主题相关度、锚文本主题相关度以及链接指向网页PR值的链接综合优先度评估方法。通过分别以暴雨灾害和台风灾害为主题的主题爬虫实验结果表明,该方法能有效预防“主题漂移”,提高爬虫系统的准确性。2)针对FC技术中的爬行策略问题,提出了一种融合本体和改进禁忌搜索策略的主题爬虫(On-ITS)方法。利用全局本体和局部本体多次筛选链接,加入回溯隧道穿越法,最终提出一种结合On-ITS方法和回溯隧道穿越策略的主题爬虫方法(RO-ITS),该方法扩宽了爬虫的搜索路径,提高了爬虫系统全局搜索的能力。通过以暴雨灾害和台风灾害为主题,将本文提出的爬虫方法与文献中其他不同算法的实验结果进行比较,发现本文的策略能抓取更多与主题相关的网页。3)针对FC技术中的爬行效率问题,搭建了基于Hadoop平台的DFC系统。通过将RO-ITS策略引入Map Reduce计算模型,设计并实现了系统的页面抓取、页面解析以及链接处理三个模块,利用HDFS存储数据。经过实验测试,本文设计的DFC系统运行稳定,爬准率较高,与单机爬虫系统相比,其网页抓取效率明显提升。