基于主题的多线程网络爬虫系统的研究与实现

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户：www860227

【摘要】

：

随着互联网的蓬勃发展,网络上的信息呈现爆炸式增长。由于互联网上的数据过于庞大,数据增长快而且更新十分迅速,并且具有很强的动态性,所以用户难以快速准确的获取到自己需要

【作者】

：

陈露

【出处】

：

北京邮电大学

【发表日期】

：

2015年01期

【关键词】

：

主题爬虫文本去重 simhash LCS 相关度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的蓬勃发展,网络上的信息呈现爆炸式增长。由于互联网上的数据过于庞大,数据增长快而且更新十分迅速,并且具有很强的动态性,所以用户难以快速准确的获取到自己需要的信息。为了从如此浩瀚、巨大的资料库中快速精准地查找用户所需资料,同时尽可能忽略掉不相关的信息,搜索引擎技术应运而生。作为一个辅助人们检索信息的工具、用户访问万维网的入口和指南,搜索引擎的目标是达到尽可能高的网络覆盖率,但是高的网络覆盖率又会导致其为用户提供的无用信息过多。此外传统搜索引擎提供的特定领域的信息检索结果不够专业,无法满足特定领域、特定专业人群的特定需求。为了解决传统搜索引擎的局限性,本文设计并实现了一种基于主题的多线程网络爬虫系统,用于爬取互联网中的新闻和博客页面。本文完成了以下工作：首先,研究传统网络爬虫和已有的主题爬虫的相关技术,并对其进行简单介绍；其次,针对系统在文本去重方面的需求,对文本去重技术进行研究和探讨,提出了基于语义指纹和LCS的文本快速去重方法；再次,对系统进行需求分析,并根据需求分析对系统功能和数据库进行总体设计；最后,对系统的主要功能模块进行了详细设计,包括功能模块详细设计、处理流程设计,描述了系统关键模块的代码实现,并简单展示了系统的运行界面。研究并实现的基于主题的多线程网络爬虫系统支持多任务、多线程爬取页面,支持用户进行参数配置、主题配置。该系统能提供实时的针对某一特定领域的新闻、博客信息的爬取。本文最后从数据抓取速率及主题判断的准确度两个方面对系统的性能进行验证,结果表明本系统能达到较高的网页抓取速率,在主题资源搜索方面具有较高的准确度和覆盖率,同时具备良好的文本去重效果。

其他文献

旋挖钻机成孔灌注桩技术在高速公路工程中的应用

我国高速公路的建设规模逐步扩大,在各类复杂地质环境下,灌注桩取得广泛应用。作为一种全新的方法,旋挖钻孔灌注取得突出的应用效果,成为推动高速公路建设事业的关键。对此,

期刊

高速公路旋挖钻机灌注桩highwaysrotary drillbored piles

黑龙江省观光农业发展模式研究

观光农业作为一个农业范畴中的新型经济增长点，自产生以来就受到各国的重视，纷纷开展本国的观光农业开发工作。我国的观光农业最早出现在20世纪80年代，随后的30多年里，在东部和南

学位

黑龙江省观光农业发展模式

货币政策、债务融资与中国农业上市企业研发投入关系研究

2017年2月公布的中央一号文件意味着这一年将是农业供给侧结构性改革的关键时点。通过改革来实现农业产业升级的核心突破点必然是创新,只有加快农业研发(R&D)的脚步才能实现

学位

农业上市企业R&D投入债务融资货币政策

智能电子产品关键质量控制和功能可靠性研究

随着电器制造技术的发展,尤其是大规模集成电路技术的不断进步,电子产品体积越来越小,而其功能却日趋强大,智能化程度不断提高。然而,随着智能电子产品功能的强大,其整体质量

期刊

智能电子产品关键质量控制功能可靠性测试intelligent electronic productskey quality controlfunction

新时代背景下大学精神发挥思想政治教育作用探析——以哈工大精神为例

大学精神是大学文化的核心,哈工大精神经历近百年的沉淀,已具有相当深厚的精神内涵和外延,在新时代具有认知导向、情感陶冶、意志凝聚、信念激励等思想政治教育作用。在哈工

期刊

大学精神哈工大精神思想政治教育

再生水灌溉城市园林绿地对植物矿质元素和土壤性状的影响研究

采用示范区绿地调查的方法，研究了再生水灌溉对北京地区有代表性的园林植物生长状况的影Ⅱ向，并采集植物叶片和立地土壤进行相关指标的化验分析。结果表明，再生水灌溉区植物生长

期刊

风景园林再生水研究土壤影响Landscape Architecture Reclaimed Water Study Soil Effects

分布式数据挖掘在网站日志分析中的开发与应用

随着互联网的快速发展,Web技术被广泛使用,上网用户增加,用户产生的数据剧增,这些数据中往往蕴藏着潜在的有价值的规律。对这些数据进行挖掘,将挖掘结果反作用于各网站,能够

学位

Web挖掘个性化会话识别D-DBDCD-FP-GrowthHadoop

基于主题的多线程网络爬虫系统的研究与实现

其他学术论文