论文部分内容阅读
在互联网时代,信息高速流通。网站成为获取资源的重要平台,同时网站上的信息搜索更成为人们主要的信息获取方式之一。随着我国逐步深化“互联网+政务服务”,政务网站已成为政府与民众交互、提供服务、宣传国家方针政策、展现国家民主政治的重要窗口。然而,大多数政务网站,尤其是县市级及以下行政单位的门户网站,都缺乏本地网页防篡改系统的支撑,随时面临着被恶意攻击和篡改的风险。网站上的网页被篡改,不但会影响到网站的正常运营,造成一定的经济损失,其中含有政治攻击和宗教色彩的篡改,还会对政府形象造成严重损害,降低政府公信力。市面上成熟且功能强大的防篡改产品一般都是针对于企业等大型用户,用于政务网站成本太高。因此,设计和实现一个经济适用性和实用性兼备的专门为政务网站设计的篡改检测系统是有必要的。本文以研究政府网站的网页篡改检测为目标,首先对基于网站本地服务器端和远程客户端的网页篡改检测技术的实现方法以及优劣进行了深入研究和分析,其次结合政府网站的安全现状,重点研究了对于网页结构的异常篡改检测、政府网站公告栏的篡改检测、新增页面的篡改检测和基于机器学习的暗链攻击检测方法,设计和实现了一种基于反向代理的网页篡改检测系统,提高了政府网站网页篡改检测的准确性以及效率,在一定程度上降低了政府网站安全防护的成本。研究工作主要包括以下几个方面:1、通过分析政府网站网页的布局特征和页面变化特征,通过CSS选择器对网页动态更新区域进行定位。并将网页的篡改检测分为结构变化检测、静态区域检测和基于公告列表的内容篡改检测。2、首先实现了网页的整体结构篡改检测,其次针对动态更新的网页公告发布区域,提出了一种准确度较高的篡改检测算法,同时对于公告列表中的新增页面,提出了一种基于Myers’diff算法的层级节点加权算法。3、对于政府网站可能遇到的暗链攻击问题,采用了一种优于传统暗链检测技术的基于机器学习的暗链检测方法,该方法利用国家互联网应急中心的恶意网页分析数据集,通过对暗链相关结构特征、锚文本特征、域名特征和特征扩展来进行特征提取,引入随机森林和XGBoost算法进行分类模型的训练,实现了对被植入暗链的网页进行自动识别和较准确的检测。