【摘 要】
:
随着互联网的飞速发展,网络上的数据呈指数增长。用户获取信息的一个重要途径就是通过搜索引擎,搜索引擎通过抓取全网数据来为用户提供搜索。中小型的数据抓取需求使用单机爬
论文部分内容阅读
随着互联网的飞速发展,网络上的数据呈指数增长。用户获取信息的一个重要途径就是通过搜索引擎,搜索引擎通过抓取全网数据来为用户提供搜索。中小型的数据抓取需求使用单机爬虫即可满足,然而在遇到大型的数据抓取需求时,为了提高整体网络爬虫系统的性能,需要借助分布式技术,通过有效的分工和多台机器之间的协作来提高抓取效率。现有的分布式网络爬虫框架在扩展性和可用性上不够完善,本文提出的面向分布式的通用网络爬虫系统采用当前较为成熟的分布式技术,使得爬虫系统在数据抓取的各方面都有优异的表现。本文的主要工作如下:1)给出了一种基于历史数据的时效性种子页面调度算法。调度模块是网络爬虫系统的核心模块,调度算法的质量直接影响到整个系统的成本和效率。针对种子页面调度不灵活的问题,提出了基于历史数据的时效性调度算法。同时,利用回归预测算法计算模型后,应用在调度模块中,使得算法在成本、命中率、延时上都获得了比较好的效果。2)给出了一种URL归一化去重的挖掘算法。URL去重是影响网络爬虫性能的另一重要因素,去重可以为系统节约大量的存储空间,并且提高后续使用数据时的检索效率。本文通过对去重模块提出挖掘规则来改善URL归一化的效果,减少页面的重复率。同时,对镜像站和无效参数方面的挖掘进行实现,达到了极高的准确率和良好的召回率。3)在上述工作的基础上,设计并实现了分布式通用网络爬虫系统,并确定了分布式系统的物理架构、逻辑架构和数据格式信息。首先,采用Kubernetes来对模块进行管理,用Kafka和Thrift作为模块间的管道,借助日志系统和时序数据库对系统进行可用性监控;然后,对各个模块做了详细的设计,并且应用了调度算法和去重的技术来改造部分模块;最后,经过性能测试后,本文分析了该系统的优缺点,对该系统的实验结果进行了评估。
其他文献
<正>第二届国家期刊奖提名奖期刊第三届国家期刊奖百种重点期刊Medline数据库收录期刊中文核心期刊中国科技论文统计源期刊中国期刊方阵入选期刊荷兰文摘与引文数据库(Scopus
近年来随着中国制造2025的提出,我国在机械制造和汽车行业取得了非常迅猛的发展,伴随着这些行业规模和技术水平的不断提高,对一些关键部件的质量和精度要求也越来越严格。作
<正>自"一带一路"倡议连贯亚欧非大陆3年多来,中国不断加强与沿线国家在农业投资、贸易、科技等领域的合作,多双边贸易往来持续活跃、学术交流频次增加水平提高,为沿线国家农
<正> 一、市场分析: 奇香牛骨肉风味店包括四个品种:即火爆江城的奇香牛骨头、奇香卤牛肉、牛肉火锅和牛肉米粉、牛肉面条早餐。她以风味独特,营养保健而著称。其特点是:吃了
目前全球经济的发展迅速,环境污染与气候恶化问题也随之日趋严重,低碳发展逐步成为全球关注的热点问题。环境气候问题的解决并非一日之功,需要政府、企业、社会和群众各方面
目的:研究经乳晕入路行腔镜甲状腺切除术对女性甲状腺腺瘤患者临床疗效及切口瘢痕满意度的影响。方法:选取笔者医院2016年4月-2018年4月收治的180例甲状腺腺瘤患者纳入研究,
改革开放以来,教育蓬勃发展,教育成为了国计民生的大事,在国务院出台的多个文件中都提到了教育要注重培养学生的独立性、自主性、创造能力、社会适应能力等等。如《国务院关于基础教育改革与发展的决定》、《国家教育事业发展“十一五”规划纲要》以及《国家中长期教育改革与发展规划纲要(2010-2020)》等文件,在以上的文件中多次提到了“教育要注重培养学生的独立性、自主性”、“培养学生自主学习的能力、自立自强的
针对高轨三星无源定位系统对空中恒定高度运动目标探测的应用场景,提出了一种利用信号到达时差(TDOA)、到达频率差(FDOA)的无源定位与测速方法.详细描述了算法原理、算法处理步骤
湖南武陵山片区是我国精准扶贫的重要地区,实现该区域的脱贫具有重大的社会和经济意义。同时,流通产业在促进生产和消费中发挥着举足轻重的作用,具有显著的减贫效应,是湖南武陵山片区脱贫致富的关键。本文依据经济增长假说和空间差异理论,从总体减贫和区域差异角度提出问题假设,讨论片区流通产业发展能否有效减少贫困且是否存在空间差异。首先,梳理了湖南武陵山片区流通产业发展现状,将片区分为四大分片区和37县市两部分分
碳纳米管薄膜由于其优异的机械性能、电学性能和导热性能,而具有广泛的应用前景,例如在储氢材料、催化剂载体、复合材料填料、生物和医药领域等。目前碳纳米管薄膜已经实现了连续制备,但是相对于单根碳纳米管的理论强度(50-200 GPa),作为宏观体的碳纳米管薄膜还具有很大的探究空间,与增强聚合物复合制备碳纳米管复合材料来提高薄膜的强度成为一个研究热点。近年来对于碳纳米管/聚合物复合材料的机械性能展开了多方