面向数据分析的分布式数据管理系统

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 4次 | 上传用户:loveshdou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着工业4.0与互联网+的相关产业发展,大数据成为业界的一个普遍现象,也逐渐在方方面面影响着大众的生活。如何管治与利用好大数据,是目前众多政府机关与企业所面临的难题,而目前的大数据生态圈正处于一个刚刚为大众所了解,正在稳步发展的局面;关于数据的收集、存储、处理及分析建模,已经有系统或者架构可以初步完成这些任务,然而随着数据量的增大、模型的复杂度增加,正让目前的系统显得力不从心、效率低下。研究如何快速、低成本地完成海量数据的分析与建模具有一定的应用价值与现实意义。当前业界仍然是认为分析全量数据才能全面分析数据,而分析全量数据的代价是非常巨大的;另一方面,大数据的管理方式也是基于全量数据的顺序进行分块,这也导致了分析全量数据的必然性。现有分布式系统的各种开销,使得大数据分析的迫切性与困难之间的矛盾日益突出,直到随机样本划分(Random Sample Partition,简称RSP)研究表明,分析一个与全量数据分布相似的数据子集,可以达到近似分析全量数据的效果,并可通过子集数量的增加,对全量建模结果逼近。本文研究重点是基于随机样本划分的面向数据分析的分布式数据管理系统。研究与应用基于随机样本划分的大数据管理新方法,为数据分析建模提供快速、灵活的支持。本论文主要内容包括以下几点:1.提出了分布式随机样本划分算法:本文在随机样本划分数据表达模型的基础上,提出了分布式随机样本划分算法,该算法对每一条记录生成一个分区编号,全体分区编号服从均匀分布,随后根据分区编号进入对应的分区,算法是一个典型的Map Reduce过程,也可应用于Spark平台,具有良好的可扩展性,通过验证实验,分布式算法的可行性及有效性得到证明,在相同的建模条件下,使用1%的数据量获得与全量数据接近的模型精度,并且训练时间仅为全量数据的十分之一,达到了分析少量子集数据即可逼近全量数据的目的。2.提出了随机样本划分存储模型:面向数据分析及建模的需求,结合随机样本划分数据表达模型的特性,本文设计了随机样本划分存储模型,对划分后的数据进行了结构化的存储,达成了提供对分区与相关元数据的快速随机访问的目标。3.研发基于随机样本划分的数据管理原型系统:基于随机样本划分及其存储模型,借助现有分布式系统的并行及高可用性,构建具有统计感知的数据管理系统(Random Sample Partition Data Management System,简称RSPDMS),以满足大数据快速分析建模需求,并且具有横向扩展性;通过良好的系统架构与设计,与企业的大数据平台进行对接,对系统进行的各项测试和分析,达到了预期的目标。如何快速高效地对大数据进行分析、建模是国内外大数据系统研究的共同目标,本文针对传统大数据管理系统的数据组织方面的不足,提出了基于随机样本划分的优化方法,借助对数据进行随机样本划分以及针对数据分析建模的存储模型,建立了分布式数据管理系统。
其他文献
中国市场经济的飞速发展催生了农产品市场的广告传播,广告作为信息传播最有力的载体之一,在农产品信息传送、品牌塑造、市场分割以及产消互联等诸多环节,作用显著。然而,我国
石墨烯的发现掀起了人们对二维晶体材料的探索热潮。单层或少数层过渡金属硫族化合物(TMDs)是二维晶体材料的典型代表,此类材料的带隙合适、电子迁移率和热导率高、光吸收强、比
硅酸三钙(Ca3Si05),即C3S,经异离子掺杂后所形成的固溶体,被称为阿利特(Alite),它是水泥熟料的主要矿物组成,决定着水泥熟料的关键性能。C3S和阿利特晶型结构的多样性和复杂
为把昆山建成现代化中等城市和高新技术密集区,我市坚持以实现教育现代化总揽教育改革和发展全局,按照“市镇校三级联动,区域性整体推进”的工作方针,有计划、有组织、有步骤,分等
信任、互惠规范和公民参与网络是社会资本的主要样态,但究竟是人际合作促进了信任、互惠规范和公民参与网络,还是相反,在逻辑上存在着陷入循环论证的怪圈这样一种可能性。为此,在
【正】 苯骈三氮唑(Benzotriazole,简称 BTA)是对铜及铜合金的特效缓蚀剂,目前工业上已越来越广泛地应用了。能否应用它来保护青铜器,解决长期所存在的"粉状锈"(即青铜病)问
人类严重急性呼吸综合征(SARS)相关冠状病毒(SARS-CoV)感染导致的严重急性呼吸系统病变,其临床肺部病理损害特征与急性肺损伤和急性呼吸窘迫病变相似。SARS-CoV可以结合人血管紧张
论文介绍了甲醇及甲醇发动机的特点,并阐述了甲醇汽车的优势、劣势与国内外总体发展概况,同时重点针对军用甲醇汽车的应用前景进行了展望。军用甲醇汽车在安全性、隐蔽性、驾
为了降低薄膜晶体管的寄生电容,一种新型平坦化材料被引入。单独采用反应离子刻蚀(RIE)或增强电容耦合等离子刻蚀(ECCP)模式刻蚀该平坦化层均无法获得满意的工艺效果。为此,
针对心音信号与MEMS电子听诊器声传感特点,设计了一种应用于该传感器的信号调理、采集传输系统,带宽为20 Hz~1 kHz。该系统以stm32和hc-05蓝牙模块为控制核心实现信号的采集