通信搜索引擎中爬虫程序的设计与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:tywuyaohuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
爬虫程序是搜索引擎中十分重要的组成部分,本论文通过研究爬虫程序的现状自主设计并实现了一个爬虫程序spider。爬虫在信息采集时通常采用宽度优先或深度优先策略,在不同策略的基础上又增加了URL价值评估算法,进一步提高搜索的准确性和目的性。本文在设计spider程序时,通过比较和研究不同的爬虫搜索策略,在搜索策略上采用了一种基于URL目录深度的链接价值计算方法,该方法通过计算URL的目录深度来确定链接的权值,并将计算出的权值作为链接的重要性评估标准,实现一种启发式的宽度搜索策略。这种链接价值评估方式具有易于实现,提取重要页面速度快的特点,本文将这种计算方法和程序设计结合起来制定了可行的实现策略,并通过局部随机排序的方式来解决局部排名下陷的问题,弥补单一的URL权值计算策略的不足。   在实现上,spider程序将基于URL目录深度的链接估值方法加入到了程序的设计思路中,通过采用C++标准库容器在内存中存储URL列表,针对标准库容器自身排序速度快的特点,将每个链接的URL和权值进行一一对应存入容器,通过容器自身的排序算法对链接按权值大小进行时时刷新重排。除此之外,spider程序还实现了DNS缓存设计,IP访问域的控制,在网页去重设计上采用了URL和页面内容双重去重的方式。同时,spider程序采用Windows下的多线程程序设计方式,并结合HTTP1.1的特点实现了重复利用已有TCP连接,以此提高程序效率。对网页链接的提取区分了文本链接和图片链接,并通过自定义的网页存储格式存储在文件中,原始网页数据文件可以用于后期建立索引,同时将图片链接提取到文件中便于后期统一处理。   本文最后根据spider程序的设计目标对spider程序作了系统的测试,包括程序的功能测试和性能测试,功能测试包括验证程序设计的各个功能是否能正常工作.性能测试通过对校园网内网网页进行全网搜集,并做出了spider程序的搜集准确性分析曲线,通过横向比较分析,得出基于URL目录深度的权值计算方式可以快速地获取内网中的重要网页,尤其在网页抓取初期效果很明显,验证了基于URL目录深度的权值计算方法的有效性和可行性。  
其他文献
随着通信技术的飞速发展,频谱资源日渐紧缺,为了提高有限频谱资源的利用率,出现了认知无线电技术并成为现在研究的热点内容。作为认知无线电的关键技术之一,频谱共享是认知无线电
近年来,移动通信市场的飞速发展所带来的前所未有的机遇和挑战,促使3GPP组织在面对WiMAX技术挑战之时推出了通用移动通信系统的LTE项目。LTE在峰值速率、带宽、频谱分配灵活性
DDoS(Distributed Denial of Service,分布式拒绝服务攻击)是现今网络技术的发展所遭遇的严峻挑战之一,如何实现安全有效的DDoS攻击检测及防御一直是一个热点研究问题。SDN(Sof
频谱资源的高度稀缺与已授权频谱的低效利用之间的矛盾迫切需要一种新的技术从根本上予以解决。而在认知无线电系统中,认知无线电用户(认知用户)能以一种动态的频谱接入方式
遥感图像融合就是通过一定的算法去除两幅或者多幅遥感图像的冗余信息,同时保留源图像的互补信息,并集中在同一幅新图像的过程。随着遥感技术的飞速发展,遥感图像融合技术也具有较大的提升,融合效果也有很大的改善。为了达到更好的图像融合效果,本文结合IHS变换和(?) trous小波变换,提出了一种改进二维经验模式分解的遥感图像融合算法,既保留了图像的光谱信息又提高了图像纹理细节的表现能力。本文的主要研究工作
随着通信技术的飞速发展,第四代移动通信技术成为通信系统发展中讨论的重点,如多输入多输出(MIMO)、智能天线(SA)、联合检测等。MIMO技术可以在不增加系统带宽条件下成倍提高
光纤通信技术的发展使得单根光纤中的传输速率超过10Tb/s,波分复用(Wavelength Division Multiplexing,WDM)充分挖掘了光纤通信的潜在能力。然而,光纤通信和波分复用技术的发展
复杂系统中的节点分布和连边的策略与空间因素有着紧密的联系。交通网络、基础设施网络、Internet、神经网络等复杂网络其内在的演化机制与空间因素是息息相关的,所以仅从内部
随着移动网络中数据业务的不断增长,用户对数据传输速率和系统容量的需求将很快达到3G网络的能力上限,运营商必须部署更加先进的移动无线网络才能满足用户日益增长的数据业务需
学位