Inar——一个并行爬虫的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lvangis
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet上信息量的迅速增长,搜索引擎已经成为人们检索网上信息的主要手段,是互联网上人们获取信息最重要的方式之一。网络爬虫是搜索引擎中负责采集信息的模块。由于Internet上信息数量大、更新和增长速度快的特点,使得搜索引擎需要一个极为高效的网络爬虫为其采集信息,使其能够为用户提供全面、及时的查询结果。为了满足以上需要,各大搜索引擎多采用在大规模集群系统上并行运行的爬虫系统来抓取信息。  本课题研究的目的在于为Inar(InformationgNavigationandRetrieval)搜索引擎设计并实现一个在多机上并行运行的网络爬虫,为Inar搜索引擎在信息抓取方面提供高效的支持。探索并研究并行爬虫体系结构。  本文概要介绍了搜索引擎的发展历史和工作原理,网络爬虫和搜索引擎的关系以及工作原理。介绍了网络爬虫涉及到的相关技术。详细分析了Inar爬虫的设计思想和体系结构,分析了爬虫各模块的功能和作用以及实现策略。本文的研究内容主要包括以下几个方面:  (1)通过分析需求,提出Inar爬虫的并行体系结构。  (2)通过分析并行体系结构中各个模块需要完成的任务,给出各个模块的设计思想和实现策略,实现了并行爬虫。  (3)通过实际测试检验并行爬虫实际工作效率。  (4)展望未来的发展方向,分析现有系统存在的问题。  通过本文中设计和实验得到的结论,Inar并行爬虫的设计与实现已经较好地完成了预定目标,并且正在为Inar搜索引擎提供信息抓取服务。本文中提出的并行爬虫体系结构,对并行爬虫的设计具有一定的参考价值。
其他文献
随着智能移动终端功能和用户体验的日益完善,智能手机已经被越来越多的用户使用。研究数据表明,Android手机的购买量正在逐步超越个人电脑。Android系统被应用在越来越多的智能
地理信息系统(GIS)是信息技术(IT)的一个重要组成部分,在信息社会中占有越来越重要的位置。嵌入式GIS(或称“移动GIS”),是新一代地理信息系统发展的代表方向之一,它是运行在嵌
上海电信于1997年起,先后在市区和各个郊区建成各自独立的112系统。2001年上海电信首先在上海市区实现了112系统的互联,即能对市区所有用户线路进行自动测试和障碍报修。但市区
据英国驻华使领馆官方网站3月24日16:35:00 发布的消息,中央电视台(CCTV)落户媒体云集的伦敦。作为中国最大的广播媒体,中央电视台已在伦敦北部的卡姆登成立了新工作室。  作为英国政府的国际商务发展机构,英国贸易投资总署与伦敦官方投资服务机构——伦敦投资局一起为中央电视台落户伦敦做出了贡献。  伦敦是世界闻名的传媒中心,云集了多家国际广播及传媒公司。这些媒体之所以选择伦敦,是因为看中了这里
近年来,自由曲面的绘制,特别是细分曲面的快速绘制算法,成为了计算机图形学领域的一个研究热点。可编程图形处理器GPU(Graphics Processing Unit)的发展日益成熟,它专门为图
随着信息技术的发展,世界经济格局发生了巨大的变化,逐步形成了一个统一的一体化市场,市场竞争日趋激烈,社会的消费观念也不断发生变化,产品的功能已不再是消费者决定购买的
命名实体识别是现在自然语言处理研究的热点[1][2][3][4]。命名实体识别就是在文本中识别出日期、时间、数字、人名、地名、组织机构名和其他实体[8]。命名实体是信息抽取的
近年来,随着我国城市化建设的快速发展,轨道交通作为缓解城市交通压力、解决交通拥堵、支持城市可持续性发展的重要手段,受到了国家和各级政府的重点关注。地铁作为城市轨道交通