论文部分内容阅读
随着企业大规模数据在不同垂直业务领域的应用和扩展,得益于Hadoop集群的处理效率高、可扩展性强和成本低等特性,越来越多的企业将Hadoop集群作为主要的数据存储和处理工具。但是,由于Hadoop集群本身具有资源多样性、复杂性等特点,导致节点故障频发,给集群的资源监控带来了极大挑战。此外,Hadoop的安全机制相对薄弱且都属于静态安全技术,缺少对用户行为活动的监控,导致容易遭受隐藏的安全威胁,集群的数据安全难以得到保障。针对用户行为活动的监控,提出了一种Hadoop集群环境下的用户行为异常检测方法,提高了集群的数据安全性。在充分研究和分析现有资源监控技术的基础上,提出了一个监控框架整合改造方案,克服了现有框架的诸多缺点。在Hadoop集群用户活动监控方面,首先研究和分析了传统主成分分析算法的缺点,即在大规模数据情况下的内存限制以及效率不高的问题,本文分解算法中协方差矩阵的计算过程,基于MapReduce对其做并行化处理,较好的解决了上述问题。然后分析用户对HDFS的操作行为,提出了一个基于并行化主成分分析的用户行为异常检测方法,利用本文算法基于用户对HDFS的数据操作记录进行离线训练建模,提取其行为模式。检测时把当前用户的行为模式与训练得到的历史正常行为模式进行比较,基于欧氏距离度量标准评判当前行为是否异常。该方法不仅降低了数据特征的冗余,提高了数据处理的效率,而且具有较好的检测结果。在Hadoop集群资源监控方面,首先研究和分析了现有监控框架的优点和缺陷,选择Ganglia收集集群的监控指标,然后利用本文实现的数据抽取模块把上述指标与Nagios报警框架进行对接,满足Nagios状态显示划分等级的功能需求,最终提出了一个集监控和报警于一体的集群资源监控框架。本文框架充分利用Ganglia和Nagios各自优势,克服了Ganglia告警功能的欠缺和Nagios监控功能的局限,而且本文数据抽取模块使得Nagios避开了自身监控服务的开销,实现了整合框架的轻量级监控。最后,本文对Hadoop集群的资源监控框架和用户异常行为监控系统分别进行了设计与实现,通过实验验证了本文整合框架和检测方法的正确性和有效性。