基于Docker集群的分布式爬虫系统的设计与实现

来源 :武汉邮电科学研究院 | 被引量 : 1次 | 上传用户:pluto529
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今的世界正处于互联网信息飞速增长的时代,常见的搜索渠道如百度等搜索引擎只能给我们提供一些杂乱无章的浅显信息,仅根据相关度等因子显示而未经过算法针对性的筛选。网络爬虫是网页信息抓取的一种常用手段,但常见的单机网络爬虫系统效率较低,虽然后续改进的利用VM做分布式系统的效率有所提升,但是离用户真正所期待的速度还有很大的差距。传统的爬虫系统对于URL去重和页面内容去重等功能需求不够友好,一些简易爬虫系统还会经常被网站的反爬虫系统限制。为了有针对性地快速获取有效信息,本文设计了一个基于Docker容器集群的分布式网络爬虫系统。此系统基于Scrapy-Redis框架,利用Redis存储爬取解析到的URL,利用MongoDB存储爬取解析到的网页内容,采用主从混合分布式系统部署。经实验证明,此系统能够有效地爬取用户需要的信息且速度较分布式VM系统有很大提升。本文所做的工作及创新点如下:(1)深入研究了BloomFilter去重算法,在原算法的基础上加以创新,提出了二阶段BloomFilter去重方案,使其具备更低的误判率。(2)改进了通用的爬虫框架,使其更好地支持分布式系统。增加了页面内容查重模块,并优化了在海量数据场景下的查询时间,提升了爬取工作的效率和有效性。(3)深入研究了大型网站对于爬虫的常见限制措施,对于爬取过程中经常遇到的反爬虫机制做了针对性的处理。(4)深入研究了基于Docker容器的分布式集群系统,探究了Kubernetes集群管理平台,部署了分布式爬虫系统。
其他文献
随着人们生活水平的提高,竞争压力的逐增,家庭越来越重视儿童兴趣的培养和人格的塑造,为儿童安排线下舞蹈音乐培训班和补课班,同时在儿童碎片化时间中安排线上数字阅读教育。另外当前中国处于疫情时期,儿童不能到学校上课,只能在家里通过网络平台学习,这对于儿童数字阅读平台来说是其发展与创新的机遇时期。儿童数字阅读付费平台具有简单和智能的特性,孩子能掌握使用方法,进行自主阅读,家长可以在适当的时候给予帮助和引导
多媒体技术在学习领域中的应用,是学习现代化的一个重要标志。多媒体技术即可用于一般课堂教学又可用于个别化学习。提出了利用多媒体技术学习和保证学习成功或达到预期效果需
玄参科阴行草属(Siphonostegia)全世界共4种,1种产小亚细亚,3种分布于中亚与东亚,我国有2种:阴行草(Siphonostegia chinensis Ben.h)和腺毛阴行草(S.Moore)。阴行草在我国大部均有分布,北
以正硅酸乙酯和氨水为原料,采用Stober法制备单分散SiO2胶体粒子,利用纳米粒度Zeta电位测定仪测定SiO2胶体粒子的Zeta电位和粒度。研究结果表明,电解质对胶体粒子 Zeta电位影响
目的:观察灵芝孢子对致痫大鼠血清叶酸、血清钙及大脑皮质钙含量的影响。方法:采用放射免疫分析法测定血清叶酸含量;用原子吸收分光光度计测定脑组织及血清Ca^2+含量;结果:三组大鼠