基于Hadoop的分布式爬虫

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:qiuxi1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机技术日新月异的时代,信息数据的膨胀对搜索引擎的查询准确度和相关性提出了更高的要求。随着网络传媒在作为信息传播载体越发迅速的发展,网络爬虫作为信息采集工具,在大数据采集领域占据了越来越重要的位置。海量数据的采集,对于单机爬虫的计算和存储能力提出了巨大的挑战。本文通过研究分布式爬虫,提出了相应的爬虫信息采集和和数据解析的分布式实现方案,并Hadoop框架的基础上改进爬虫的搜索准确度。首先,本文针对分布式爬虫中多个节点的URL遍历任务分配问题,根据Hadoop的MapReduce擅长离线式的大数据处理的特点,提出按页面中链接提取的轮次逐层访问网络的方案,使得爬虫的信息采集工作在分布式框架下有效执行。针对URL在分布式环境下的去重检验问题,比较常见的集中式检验和共享式分配等方法,提出适合于Hadoop框架的分区布隆过滤器,保证了各分区URL去重检验记录的独立性,实现离线式的URL去重检测方案,减少了去重过程中额外的主节点与子节点的信息交互,降低了无效了的页面重复访问率。同时,在分区去重检测的基础上,为网页的更新提出检测方案,避免了对静态页面的过多访问,保持的对动态页面更新信息的及时获取。其次,为了实现分布式框架下的网络爬虫的主题抓取,本文基于TextRank关键字提取模型,提出了基于关键词扩展的主题爬虫,提高了主题过滤的主题描述集的表达准确力度。同时针对主题爬虫中的隧道问题,对于不相关的链接信息做一定程度上的保留,以便找到具有主题相关度的网页,提高主题爬虫的召回率。然后,本文为在逐层访问的爬虫提高对相关链接的访问自由度,使得爬虫对相关网页进行深度抓取。最后,在适应于Hadoop的文件输入输出的数据格式的基础上,设计爬虫执行的各相关模块,实现在Hadoop框架下分布式爬虫的具体实现。实验结果表明,分布式爬虫具有比单机爬虫更高的数据容量采集能力,在海量数据的检索过程中,分布式爬虫将具有比单机爬虫更强大的数据分析处理能力。
其他文献
目的:本课题从经络与脏腑相关角度,通过电针双内关和灵台、神道穴观察二者对冠心病心电图ST-T影响的即时效应,为临床优选腧穴提供客观依据。方法:将46例冠心病心绞痛患者随机分
随着经济的发展,社会环境问题逐渐突出,环境保护与社会的可持续发展越来越受更多人的重视。电力产业是国民经济发展中重要的基础能源产业,关系着国计民生,是各国经济发展战略
20世纪末,伴随能源紧缺和环境恶化等问题越来越突出,人们节约能源,保护环境和可持续发展等意识逐渐增强,能源与环境问题已经成为当今世界越来越关注和重视的问题。在汽车产业
自改革开放以来,我国教育事业呈现出多样化发展,聘请的外籍教师的数量也与日俱增,外籍教师逐渐在我国各级学校的教学中扮演着越来越重要的角色。各地中小学也相继开始聘用了
推行行政执法类公务员改革试点,除了要突破传统干部管理制度以及单一的管理模式的定式外,更重要是:运用现代公共部门人力资源管理理念来总结改革的经验,从理论和实践的角度,采
传统建筑在经历了长期的历史变迁和地震灾害后仍然屹立不倒,这其中榫卯连接所发挥的作用受到维修工作者以及学者的广泛关注,作为传统建筑中特有的连接构造,榫卯的力学性能对
谚语是流传于民间的比较简练而且言简意赅的话语。它多是口语形式的通俗易懂的短句或韵语。汉语谚语反映了汉民族的文化特点。翻译汉语谚语时,译者须较多运用英语的表现手段,
本论文是基于西方文化符号学著名的代表学者,莫斯科-塔图学派的创始人由里·米哈伊洛维奇·洛特曼的“文化符号学”理论进行的研究。以文本为基础,洛特曼将符号学的研究范围
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
目的探讨原发皮肤CD4+小/中等大小T细胞淋巴组织增殖性疾病(CD4+PCSM-TCLD)的临床病理特点、形态学特征及鉴别诊断。方法回顾性分析3例CD4+PCSM-TCLD的临床情况、组织学形态