基于标记模板的分布式网络爬虫系统的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:Alexandratj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络爬虫的诞生,满足了人们快速获取指定网络信息的需求。但是传统网络爬虫需要针对不同网站定制爬虫,而开发爬虫程序具有流程多、成本高、难度大、自动化程度低等弊端,同时开发和维护网络爬虫的效率与网站新增和更变速度的悬殊差距,又增加了开发者的负担。针对这种矛盾,设计了基于标记模板的分布式网络爬虫系统。系统能够根据携带少量网页信息的爬虫模板自动生成爬虫实例,完成采集任务。系统的目标是在减轻爬虫开发难度和减少开发流程的基础上为网络舆情系统提供大量实时网络数据。系统以Scrapy框架为基础进行修改和扩展以实现分布式,主要工作包括以下几点:定义爬虫模板,系统能够根据模板描述的采集网站、采集元素、爬虫配置等要素,生成爬虫实例,执行采集任务。设计了一个基于标记的半自动化页面元素抽取算法,算法以页面的XPath以及标记信息作为特征,采用聚类策略计算生成抽取规则,实现自动抽取。实现了一个二级去重方案,将经压缩并设置有过期时间的URL缓存到内存作为一级缓存,并以键值对形式将URL持久化到磁盘形成二级去重,在保证不发生内存溢出的基础上实现增量采集的快速去重,增加了系统的稳定性。通过封装页面渲染引擎和封装浏览器内核两种方式支持开发者选择最佳技术采集动态页面。最后,针对采集数据的特点,采用自然语言处理等技术完成对采集数据的清洗任务。基于标记模板的分布式网络爬虫系统,能够实现大量网站的自动采集,减少了开发者开发流程,避免了为单一网站开发爬虫的耗时和难度,免去了页面抽取语法的学习成本,解决了单机爬虫效率低、伸缩性差等问题。从测试结果可知,系统能够实现对包括动态页面的大量网站的高效的增量采集,有效的降低了开发爬虫的难度和要求,在保证数据的准确性的同时提高了采集效率。
其他文献
随着三维激光扫描技术的发展,三维空间中点云的相关处理技术也逐渐成熟。转炉炉衬的厚度对钢铁炼钢生产中的安全性和转炉寿命的确认都具有十分重要的影响,因此,本文将扫描得
给排水工程结构的耐久性设计非常重要。现分析了目前给排水结构耐久性设计中存在的问题,从结构使用年限、环境类别、混凝土材料及构造要求、施工质量要求等几方面提出建议,最
急性心肌梗死(AMI)合并急性胰腺炎(AP)临床少见,发病急、进展快,临床过程凶险,治疗难度大,死亡率高.我科于2001年9月成功抢救1例急性下壁、右室心肌梗死合并AP并发心源性休克
临床上有很多疾病可表现为阴道缺如,扩张、牵引、手术是制造人工阴道的有效方法。阴道扩张已被推荐为一线治疗方案,扩张失败则进行手术治疗。以往的手术通常使用自体组织,如
介绍了我国铜尾矿的利用现状和应用途径,并对铜尾矿在保温隔热材料中的应用进行了分析与展望。利用铜尾矿研制的多孔陶瓷保温隔热建筑材料不仅可减少大量排放铜尾矿带来的环
目的对利用方丝弓矫治器对正颌术前后正畸治疗的牙颌面畸形病例进行疗效分析,为临床工作提供参考。方法采用方丝弓技术,对本组所有均来自南昌大学附属口腔医院正畸科的牙颌面
针对在高层建筑建设中具有重要作用和现实意义的机电工程安装,提出包含多专业深化设计及管线综合、机电安装调试舒适性保证、设备及材料的选择和进场、大型设备与管道运输、
仿生猪笼草结构的超滑表面(LIS/SLIPS)是一种通过将低表面能液体注入微纳孔而形成的固液复合结构,其具有优异的疏液、不粘附、自修复等特性,成为表界面领域的研究热点。综述
针对GMSK混合信号单通道盲分离问题,提出将BCJR算法用于GMSK混合信号分离。根据GMSK信号连续相位的特点,通过建立混合信号模型的有限状态马尔科夫性,推导了利用BCJR算法实现G
为预防人工全髋关节置换术(THA)术后下肢深静脉血栓(DVT)形成,制定了一套THA围手术期的预见性护理程序,应用于32例病人,效果满意,现介绍如下。