搜索引擎中网络爬虫的研究与实现

被引量 : 0次 | 上传用户:wangzhaolinghappy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网快速发展的背景下,搜索引擎在人们生活工作中有着举足轻重的作用,而网络爬虫是搜索引擎中的信息采集器,是搜索引擎技术的最基础部分。特别是在今天这个大数据的时代,通过网络爬虫在互联网上搜集到有价值的数据,再进行数据整理,是一个快速得到有效信息的重要手段。本文是基于广度优先算法在Linux平台下研究并实现的多线程网络爬虫程序。爬虫系统从指定的初始URL开始抓取网页,进行网页解析,获取包含在网页中未被爬取的URL,再对这些URL逐条地进行爬行,尽可能多的获取互联网海量数据。针对网络爬虫系统中涉及的相关技术,本文详细分析与研究了网页抓取算法、网页去重算法,并提出半同步/半异步并发模型在系统中的应用,有效的利用网络资源,提高CPU利用率。此外,为了增加爬虫系统的并发度,采用基于Libevent开源事件驱动框架库的线程池设计。最终,通过模块化程序设计思想将爬虫系统分为请求连接模块、数据分析模块、URL管理模块、URL调度模块等,本文对其进行一一设计与实现,程序在GCC编译环境下调试通过。最后,文章对爬虫系统进行了性能测试,从多线程数以及最大连接数两个方面,对影响爬虫系统抓取速度的因素做出分析,找到对网络爬虫系统性能产生较大影响的原因。
其他文献
经过30多年的改革开放和高速增长,我国社会保障事业的发展也不断取得了新的成就,但是,由于区域间经济长期非均衡的发展和其他因素,社会保障支出在我国的区域间也呈现出了明显
随着信息化时代的来临,在计算机网络中信息的传输量呈现出几何级的增长,由于信息在传输过程中存在泄密的可能性,所以信息安全成为一门越来越重要的学科。为了保证网络中传输
总结了传统的结构优化设计方法,并对目前发展较快的遗传算法的基本原理、特点以及其编码方式、操作算子、适应度评判等相关方法进行了详细的介绍.在前人研究的基础上对近年来
分数槽绕组轴向磁通永磁(AFPM)电机的齿顶漏磁较大.在利用等效磁路计算程序调试电机设计方案时,需要准确计算漏磁系数,而准确计算漏磁系数的前提是准确计算齿顶漏磁系数.根据轴
中国政府2009年末温室气体减排承诺的宣布,哥本哈根会议的召开,使得节能减排和碳交易问题成为大众关注的焦点。解读了中国的减排承诺,回顾了排污权交易和碳交易的发展,分析了
在新区域主义的理论视角下,对南京都市圈的新区域实体和区域管治进行研究,指出南京都市圈是新区域主义在我国的一种表现形式。研究表明:①南京都市圈建设是从政府到管治过程,
本文从电网企业党建活动的重要性入手,分析现阶段电网企业党建活动开展实施中存在的问题,最后总结梳理创新开展电网企业党建活动的措施方法,以期提供参考。 This article st
针对非点源污染数据资料稀缺,机理模型难以建立,而统计模型所需资料相对比较易于获得,计算简便直观,并且在水环境规划管理中对非点源的年负荷量预测、估算的指导意义要大于对
人们在彼此间言语交流的时候,会在潜意识中注意到自己话语之间的顿挫,是对语言的一种“呼吸”,在对语气或关键词上的特别关注,来更清晰的表达好自己的话意,音乐更是这样,演奏者在对
随着现代化进程的日益增强,我国的城市发展也越来越快,商业在发展中的地位也日趋凸显。人们在商业空间的交流与活动也越来越频繁,对商业空间的需求变得越来越明显。商业空间