基于改进禁忌搜索策略的分布式主题爬虫方法研究

来源 :南京信息工程大学 | 被引量 : 1次 | 上传用户:dashaomai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题爬虫(Focused Crawler,FC)是信息检索的核心技术,致力于从Web上尽可能下载更多与主题相关的网页,因此如何提高FC技术的全局搜索能力并设计一个高效、稳定且准确的爬虫系统尤为重要。气象灾害中的暴雨灾害和台风灾害频繁多发且造成的损失不可估量,Web中存在很多与气象灾害有关的文本信息。为了在众多网页中高效、准确地获取暴雨灾害和台风灾害的信息,本文针对暴雨灾害主题和台风灾害主题,利用Hadoop的大数据平台,研究设计了一个融合回溯隧道穿越法和本体的改进禁忌搜索策略的分布式主题爬虫(Distributed Focused Crawler,DFC)系统,主要研究内容和方法如下:1)针对FC技术中的主题描述问题,提出了一种构建领域本体来描述主题的方法。首先利用本体语义相似度构建主题语义权重向量,基于超级文本标记语言(HTML)位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度。在此基础上,进一步提出了一种基于页面主题相关度、锚文本主题相关度以及链接指向网页PR值的链接综合优先度评估方法。通过分别以暴雨灾害和台风灾害为主题的主题爬虫实验结果表明,该方法能有效预防“主题漂移”,提高爬虫系统的准确性。2)针对FC技术中的爬行策略问题,提出了一种融合本体和改进禁忌搜索策略的主题爬虫(On-ITS)方法。利用全局本体和局部本体多次筛选链接,加入回溯隧道穿越法,最终提出一种结合On-ITS方法和回溯隧道穿越策略的主题爬虫方法(RO-ITS),该方法扩宽了爬虫的搜索路径,提高了爬虫系统全局搜索的能力。通过以暴雨灾害和台风灾害为主题,将本文提出的爬虫方法与文献中其他不同算法的实验结果进行比较,发现本文的策略能抓取更多与主题相关的网页。3)针对FC技术中的爬行效率问题,搭建了基于Hadoop平台的DFC系统。通过将RO-ITS策略引入Map Reduce计算模型,设计并实现了系统的页面抓取、页面解析以及链接处理三个模块,利用HDFS存储数据。经过实验测试,本文设计的DFC系统运行稳定,爬准率较高,与单机爬虫系统相比,其网页抓取效率明显提升。
其他文献
选用茉莉花茶和红茶作为原料,以木糖醇、赤藓糖醇和罗汉果提取物为甜味剂,研究低热量的无蔗糖调味茶饮料。通过正交试验和感官评价测试确定较优的茶叶浸提工艺条件及饮料配方
无绝缘轨道电路作为我国列控系统地车通信中的地面关键设备,在保障列车安全运行和提高列车的行车效率等方面具有重要的作用。补偿电容故障和调谐区设备故障不仅会缩短信号的有效传输距离,引起相邻区段信号之间的频率串扰,甚至会造成“红光带”,机车“掉码”等危及行车安全的现象。目前国内外对无绝缘轨道电路故障诊断方面存在诊断不全面,诊断成本高和效率低等问题,已经不能满足我国铁路日益发展的要求。因此,本文研究了补偿电
近年来,我国加大了对集成电路产业的支持力度,大大加快了该产业的发展速度,其中贴片机作为自动化电路生产的重要部分,得到了广泛的关注。本文以现有贴片机为研究背景,设计了
长期以来,中学生运动会以竞技体育为主,其内容单调、乏味,加之中学时段的学习任务重,时间较紧,所以导致中学运动会出现“少数人干,多数人看”的局面.对此,必须改革学校运会的开展模式
近年来,高考英语书面表达对学生写作能力的要求逐年提高,不仅要求学生具备扎实的写作功底,同时也对学生的审题能力,表达能力和拓展能力提出了一定要求.针对这种情况,教师唯有
教学模式的研究,为教师的专业发展提供了展翅高飞的平台和条件,促进了教育理念的提升和教师专业能力的提高和发展。