论文部分内容阅读
随着工业4.0与互联网+的相关产业发展,大数据成为业界的一个普遍现象,也逐渐在方方面面影响着大众的生活。如何管治与利用好大数据,是目前众多政府机关与企业所面临的难题,而目前的大数据生态圈正处于一个刚刚为大众所了解,正在稳步发展的局面;关于数据的收集、存储、处理及分析建模,已经有系统或者架构可以初步完成这些任务,然而随着数据量的增大、模型的复杂度增加,正让目前的系统显得力不从心、效率低下。研究如何快速、低成本地完成海量数据的分析与建模具有一定的应用价值与现实意义。当前业界仍然是认为分析全量数据才能全面分析数据,而分析全量数据的代价是非常巨大的;另一方面,大数据的管理方式也是基于全量数据的顺序进行分块,这也导致了分析全量数据的必然性。现有分布式系统的各种开销,使得大数据分析的迫切性与困难之间的矛盾日益突出,直到随机样本划分(Random Sample Partition,简称RSP)研究表明,分析一个与全量数据分布相似的数据子集,可以达到近似分析全量数据的效果,并可通过子集数量的增加,对全量建模结果逼近。本文研究重点是基于随机样本划分的面向数据分析的分布式数据管理系统。研究与应用基于随机样本划分的大数据管理新方法,为数据分析建模提供快速、灵活的支持。本论文主要内容包括以下几点:1.提出了分布式随机样本划分算法:本文在随机样本划分数据表达模型的基础上,提出了分布式随机样本划分算法,该算法对每一条记录生成一个分区编号,全体分区编号服从均匀分布,随后根据分区编号进入对应的分区,算法是一个典型的Map Reduce过程,也可应用于Spark平台,具有良好的可扩展性,通过验证实验,分布式算法的可行性及有效性得到证明,在相同的建模条件下,使用1%的数据量获得与全量数据接近的模型精度,并且训练时间仅为全量数据的十分之一,达到了分析少量子集数据即可逼近全量数据的目的。2.提出了随机样本划分存储模型:面向数据分析及建模的需求,结合随机样本划分数据表达模型的特性,本文设计了随机样本划分存储模型,对划分后的数据进行了结构化的存储,达成了提供对分区与相关元数据的快速随机访问的目标。3.研发基于随机样本划分的数据管理原型系统:基于随机样本划分及其存储模型,借助现有分布式系统的并行及高可用性,构建具有统计感知的数据管理系统(Random Sample Partition Data Management System,简称RSPDMS),以满足大数据快速分析建模需求,并且具有横向扩展性;通过良好的系统架构与设计,与企业的大数据平台进行对接,对系统进行的各项测试和分析,达到了预期的目标。如何快速高效地对大数据进行分析、建模是国内外大数据系统研究的共同目标,本文针对传统大数据管理系统的数据组织方面的不足,提出了基于随机样本划分的优化方法,借助对数据进行随机样本划分以及针对数据分析建模的存储模型,建立了分布式数据管理系统。