被黑网站检测方法的关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sundianjusdyg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于Web服务自身的特点,被黑网站可以在短时间内、各类人群中大规模传播,扩散效果极为迅速、范围极为广泛,造成的影响极为恶劣。有效地进行被黑网站的检测,特别是针对新兴的被黑网站可以进行及时检测,已成为当前网络安全研究领域的热点。被黑网站中存在网站挂马、网页制作粗糙,结构简单和内容单一、网页视觉效果与正常网页相差较大的现象,因此,本文从挂马行为、网页文本和结构以及视觉角度出发深入研究被黑网站检测的问题。首先,本文采用了基于Scrapy-redis的分布式数据获取技术,实现周期性爬取网站数据并进行更新式存储。根据对网站挂马行为的原理分析,提出了基于规则匹配的网站挂马检测方法,并构建了网站挂马知识库,检测的同时也在不断丰富网站挂马知识库。其次,提出了一种基于网页文本和结构的被黑网站检测算法。该算法提取了网页文本和结构特征,为了提高检测准确率和稳定性,采用基于SVM-RFE的特征选择算法逐渐剔除掉冗余特征来得到最优特征子集,结合SVM分类算法对网页进行分类来实现被黑网站的检测。实验结果表明,使用SVM-RFE特征选择算法结合基于SVM的被黑网站检测算法可以实现96%的准确率。再次,提出了一种基于网页截图的被黑网站检测算法。该算法使用网页截图生成技术、网页截图窗口提取技术和网页子图归一化技术来进行数据的预处理。为了减少人工提取特征的工作量,采用堆叠式自编码器自动学习截图的高维特征,并引入了卷积神经网络,提升了网页分类效果,同时采用了微调神经网络的策略,有效避免了“概念漂移”现象。实验结果表明,基于堆叠式自编码器和卷积神经网络的分类算法在被黑网站检测中的准确率和召回率都达到了90%,说明了该检测算法的稳定性。最后,基于上述的研究成果,本文设计并实现了被黑网站检测原型系统。该系统实现了数据的采集、网站挂马检测以及多角度的被黑网站检测的功能,并提出一种综合决策策略来提高检测的精度。系统测试表明,该系统在被黑网站检测中具有较好的性能。
其他文献
前不久,习近平总书记强调:"希望广大党员特别是青年党员认真学习马克思主义理论,结合学习党史、新中国史、改革开放史、社会主义发展史,在学思践悟中坚定理想信念,在奋发有为
互联网金融迅速崛起,互联网平台充分利用大数据,云计算一系列科技手段,分流了传统金融机构的一部分客户,同业金融机构竞争激烈,产品同质化,利率市场化,想从中争得一席之地,大
"图像是一条没有编码的信息"1,而数据可视化则是数据探索和分析推理的工具,因此视觉艺术研究和数据可视化听起来是矛盾的。但实际上,法国哲学家罗兰·巴特在《摄影的信息》(1
期刊
钱钟书先生的《谈交友》一文中有这样一段话,"时髦的学者不需要心,只需要几只抽屉,几百张白卡片,分门别类,做成有引必得的‘引得’,用不着头脑更去强记。但得抽屉充实,何妨心
期刊
现阶段随着铁路建设的飞速发展,未进行抗震设防或设防标准提高导致既有铁路桥梁抗震能力不足的问题日益凸显,对抗震能力不足的既有桥梁进行预防性抗震加固就显得十分必要。论
由于我国区域经济处于发展不平衡状态,农村剩余劳动力向经济发达地区流动在短时间内难以得到解决,“留守村民”问题必将是我国农村地区存在并将长期存在的一个社会问题。从20
背景急性缺血性卒中(Acute Ischemic Stroke,AIS)是成人永久性残疾、痴呆症及死亡的常见病因。近年来,AIS发病率逐年升高。众所周知,从脑动脉闭塞引发的早期脑组织损伤到后期
激光对抗系统可以通过激光照明,对目标进行探测成像并跟踪瞄准,而后发射激光对目标进行干扰或毁伤,具有高方向性,抗干扰,光速攻击和极高的破坏性等优点。而机载激光对抗系统
寄生虫病严重危害畜禽的健康,阻碍畜牧业生产的发展,使畜牧业经济遭受巨大的经济损失,同时严重危害公共卫生安全。寄生虫病已成为第三世界国家畜牧业和公共卫生事业健康发展
会议
研究背景:我国慢性肾脏病(chronic kidney disease,CKD)的患病率高达10.8%,但知晓率仅为12.5%,且发病率和死亡率居高不下。CKD主要临床表现为肾小球滤过率(estimated glomeru