论文部分内容阅读
由于Web服务自身的特点,被黑网站可以在短时间内、各类人群中大规模传播,扩散效果极为迅速、范围极为广泛,造成的影响极为恶劣。有效地进行被黑网站的检测,特别是针对新兴的被黑网站可以进行及时检测,已成为当前网络安全研究领域的热点。被黑网站中存在网站挂马、网页制作粗糙,结构简单和内容单一、网页视觉效果与正常网页相差较大的现象,因此,本文从挂马行为、网页文本和结构以及视觉角度出发深入研究被黑网站检测的问题。首先,本文采用了基于Scrapy-redis的分布式数据获取技术,实现周期性爬取网站数据并进行更新式存储。根据对网站挂马行为的原理分析,提出了基于规则匹配的网站挂马检测方法,并构建了网站挂马知识库,检测的同时也在不断丰富网站挂马知识库。其次,提出了一种基于网页文本和结构的被黑网站检测算法。该算法提取了网页文本和结构特征,为了提高检测准确率和稳定性,采用基于SVM-RFE的特征选择算法逐渐剔除掉冗余特征来得到最优特征子集,结合SVM分类算法对网页进行分类来实现被黑网站的检测。实验结果表明,使用SVM-RFE特征选择算法结合基于SVM的被黑网站检测算法可以实现96%的准确率。再次,提出了一种基于网页截图的被黑网站检测算法。该算法使用网页截图生成技术、网页截图窗口提取技术和网页子图归一化技术来进行数据的预处理。为了减少人工提取特征的工作量,采用堆叠式自编码器自动学习截图的高维特征,并引入了卷积神经网络,提升了网页分类效果,同时采用了微调神经网络的策略,有效避免了“概念漂移”现象。实验结果表明,基于堆叠式自编码器和卷积神经网络的分类算法在被黑网站检测中的准确率和召回率都达到了90%,说明了该检测算法的稳定性。最后,基于上述的研究成果,本文设计并实现了被黑网站检测原型系统。该系统实现了数据的采集、网站挂马检测以及多角度的被黑网站检测的功能,并提出一种综合决策策略来提高检测的精度。系统测试表明,该系统在被黑网站检测中具有较好的性能。