论文部分内容阅读
随着移动互联网业务的日益普及和高速发展,移动分组网络产生的数据量越来越大,原有移动分组网监测系统的存储结构及数据处理模式在应对大数据时代庞大的数据量上面临着严重挑战。如何高效存储、处理海量数据,以及对海量数据进行有效信息挖掘是移动互联网行业普遍存在的一个棘手问题。Hadoop是一个开源的分布式软件框架,提供了一个安全、可扩展的分布式文件系统HDFS,可以解决海量数据高成本、低性能存储问题;还实现了一个并行计算编程模型Map/Reduce,克服单机处理海量数据吞吐量不足的问题。
本文在研究了基于Hadoop实现的云存储平台的优缺点和传统监测系统自身特点的基础上,提出了基于云存储技术的移动分组网监测系统平台的架构。它具有以下主要特征:首先,以监测系统产生的海量呼叫详细记录CDR文件为处理对象,提出了分布式文件系统存储模型。通过集群大量低廉设备,将海量CDR文件分布式地存储在存储节点上,并备份多个数据副本,由管理节点统一进行分配管理。其次,针对Hadoop云存储平台存储大量小CDR文件性能不高的问题,设计一种基于MapFile小文件合并模型。在CDR文件上传至HDFS之前先合并压缩,提高了CDR文件存储和处理的效率,减小了系统的存储需求。
最后,重点设计了海量数据分布式处理模型。该模型底层通过Map和Reduce函数实现海量CDR数据的高效并行计算。利用数据仓库Hive将查询任务快速转换为Map/Reduce程序。利用分布式数据库HBase面向列存储的特色,对数据处理模型进行了优化,将相同条件的统计查询结果保存在HBase中,避免再次查询而浪费时间和资源,优化了海量数据处理模型。Map/Reduce、Hive和HBase相结合实现了云存储平台海量CDR数据高效处理。
基于所设计的监测系统云存储平台,本文通过统计分析和数据挖掘两个具体应用实例,验证了监测系统云存储平台的功能,并和传统监测平台进行多方面性能对比。从分析结果可知,本文所设计的云存储平台不仅减少海量CDR数据的存储需求,而且提高海量CDR数据的处理效率,还减轻数据库和服务器的负荷。在很大程度上提升了监测系统的整体性能。
最后对云存储平台实现过程中的研究与设计工作进行了总结,并展望了对该系统进一步完善的一些后续工作。