论文部分内容阅读
随着互联网的蓬勃发展,网络上的信息呈现爆炸式增长。由于互联网上的数据过于庞大,数据增长快而且更新十分迅速,并且具有很强的动态性,所以用户难以快速准确的获取到自己需要的信息。为了从如此浩瀚、巨大的资料库中快速精准地查找用户所需资料,同时尽可能忽略掉不相关的信息,搜索引擎技术应运而生。作为一个辅助人们检索信息的工具、用户访问万维网的入口和指南,搜索引擎的目标是达到尽可能高的网络覆盖率,但是高的网络覆盖率又会导致其为用户提供的无用信息过多。此外传统搜索引擎提供的特定领域的信息检索结果不够专业,无法满足特定领域、特定专业人群的特定需求。为了解决传统搜索引擎的局限性,本文设计并实现了一种基于主题的多线程网络爬虫系统,用于爬取互联网中的新闻和博客页面。本文完成了以下工作:首先,研究传统网络爬虫和已有的主题爬虫的相关技术,并对其进行简单介绍;其次,针对系统在文本去重方面的需求,对文本去重技术进行研究和探讨,提出了基于语义指纹和LCS的文本快速去重方法;再次,对系统进行需求分析,并根据需求分析对系统功能和数据库进行总体设计;最后,对系统的主要功能模块进行了详细设计,包括功能模块详细设计、处理流程设计,描述了系统关键模块的代码实现,并简单展示了系统的运行界面。研究并实现的基于主题的多线程网络爬虫系统支持多任务、多线程爬取页面,支持用户进行参数配置、主题配置。该系统能提供实时的针对某一特定领域的新闻、博客信息的爬取。本文最后从数据抓取速率及主题判断的准确度两个方面对系统的性能进行验证,结果表明本系统能达到较高的网页抓取速率,在主题资源搜索方面具有较高的准确度和覆盖率,同时具备良好的文本去重效果。