论文部分内容阅读
随着Web应用的增加,作为载体的大数据平台架构也变得愈发复杂。而且Web应用直接关系着个人和企业的利益,对Web应用的攻击频繁发生导致大数据平台的安全性也面临着巨大挑战。利用异常检测技术保证大数据平台安全性是一种有效的解决方式,但仍然存在许多困难。第一,Web流量的海量性以及时效性可能导致现有异常检测技术无法在短时间内迅速检测出异常;第二,现有的异常检测技术研究大多针对某一段时间内进行异常检测,而在实时定位异常的方面研究较少,导致对异常的后续处理不及时;第三,异常规则库需要大量成本进行维护和更新;第四,国内外学者高度关注大数据应用平台安全技术的发展,开展了许多工作,但真正达到实用的技术成果不多。因此,如何高效快速的检测大数据平台的异常对提高大数据平台安全性具有重要意义。论文来源于福建省科技计划重大项目“大数据平台实时异常检测分析系统的关键技术研发及产业化”,对当前大数据平台存在的安全性问题进行了分析,研究了基于动态规则库的大数据平台异常检测技术(Anomaly Detection for big data platform based on Dynamical Rule Base,AD_DRB)。主要包括:(1)提出了基于最大频繁模式的动态规则库构建算法,该算法对Web访问序列数据库(Web Access Sequences Database,WASD)按照时间效应进行抽取,转化为动态Web访问序列数据库(Dynamical Web Access Sequences Database,DWASD),在 Spark 计算平台上挖掘出DWASD的最大频繁模式,再根据频繁模式构建动态规则库;(2)提出了基于Web会话流的分布式实时异常定位方法,该方法利用混合生物基因序列比对算法作为相似度度量方式将会话序列与规则序列进行比对。并在Spark Streaming技术的支持下,对实时Web会话流进行检测,实现对异常的准确高效定位;(3)在以上两种方法的基础上设计了大数据平台异常检测与分析系统原型框架,以期望为产业界提供部分参考。在实验中,AD_DRB检测迅速,异常识别率超过85%,异常查全率超过80%。实验结果表明,AD_DRB具有良好的时间性能及异常检测灵敏度,能够用于提高大数据平台的安全性。