论文部分内容阅读
当前,水土流失已经变成我国最紧要的环境问题,制约着人口、资源、环境和经济的共同发展。为了防止水土流失和恢复生态环境,全国各地先后开展了水土保持工作,并逐步建立起了各个水土保持信息共享网站。 随着互联网搜索引擎技术的突飞猛进,搜索引擎的网络爬虫日渐泛滥。这些网络爬虫给网站服务器带来了巨大的处理负担,很多水保网站因此陷入瘫痪,给水土保持工作带来了巨大的压力。为了维护湖北水土保持网站的稳定,本文运用机器学习的思想,设计了能够根据访问者特征来检测爬虫的算法,并应用到湖北水土保持网站上抵御爬虫。本文主要研究内容如下: (1)论文分析了目前国内外检测网络爬虫的算法现状。深入研究了网络爬虫的工作原理和单隐层前馈式神经网络算法-极限学习机ELM,提出了基于ELM的爬虫检测算法。 (2)论文在仔细研究湖北水土保持网站后,根据网站特点建立能够充分描述水土保持网站访问者特征的特征模型。 (3)设计实现了基于极限学习机算法的网络爬虫拦截器,将其应用到湖北水土保持网站中。通过使用网络爬虫访问网站来测试实际检测效果,结果表明基于ELM的爬虫检测算法具有良好的爬虫检测性能,包括较高的检测精度与较短的爬虫检测周期。最后分析了这种算法的适用性与局限性。