论文部分内容阅读
随着Internet上信息量的迅速增长,搜索引擎已经成为人们检索网上信息的主要手段,是互联网上人们获取信息最重要的方式之一。网络爬虫是搜索引擎中负责采集信息的模块。由于Internet上信息数量大、更新和增长速度快的特点,使得搜索引擎需要一个极为高效的网络爬虫为其采集信息,使其能够为用户提供全面、及时的查询结果。为了满足以上需要,各大搜索引擎多采用在大规模集群系统上并行运行的爬虫系统来抓取信息。 本课题研究的目的在于为Inar(InformationgNavigationandRetrieval)搜索引擎设计并实现一个在多机上并行运行的网络爬虫,为Inar搜索引擎在信息抓取方面提供高效的支持。探索并研究并行爬虫体系结构。 本文概要介绍了搜索引擎的发展历史和工作原理,网络爬虫和搜索引擎的关系以及工作原理。介绍了网络爬虫涉及到的相关技术。详细分析了Inar爬虫的设计思想和体系结构,分析了爬虫各模块的功能和作用以及实现策略。本文的研究内容主要包括以下几个方面: (1)通过分析需求,提出Inar爬虫的并行体系结构。 (2)通过分析并行体系结构中各个模块需要完成的任务,给出各个模块的设计思想和实现策略,实现了并行爬虫。 (3)通过实际测试检验并行爬虫实际工作效率。 (4)展望未来的发展方向,分析现有系统存在的问题。 通过本文中设计和实验得到的结论,Inar并行爬虫的设计与实现已经较好地完成了预定目标,并且正在为Inar搜索引擎提供信息抓取服务。本文中提出的并行爬虫体系结构,对并行爬虫的设计具有一定的参考价值。