基于模型驱动的MapReduce大数据变换软件开发方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:wangxinjia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大数据研究和应用已成为产业升级与新产业崛起的重要力量,网络数据呈现指数级增长,GB,TB乃至PB级别的数据处理变得司空见惯。这些海量数据存储于社会中的各个部门当中,置于多种数据环境和数据平台,形态各异,形成了大量的异构数据。异构数据的广泛存在,严重阻碍了数据交流。与此同时,以Hadoop和Spark为代表的大数据处理平台应运而生。然而这些大数据处理平台有其自身特有的编程模型和实现细节,使用这些平台也需要借助于特定的编程语言,因此学习门槛较高,学习曲线陡峭。基于以上背景,我们需要一种可以屏蔽平台细节和数据异构性的方法,让用户在对大数据平台没有深刻掌握,不需要考虑数据异构的情况下,进行大数据程序开发。本文提出了一套模型驱动的MapReduce大数据变换程序开发方法,该方法对数据进行抽象建模,用模型转换表示数据的变换过程,利用代码生成技术映射生成Hadoop和Spark两种数据处理程序的代码,让用户开发大数据程序对海量异构进行处理的过程可以屏蔽平台细节和数据异构姓。我们选取了目前广泛使用的Ecore格式用于源数据和目标数据的模型表示,并采用OMG组织公布的QVT-R标准作为模型转换层的描述语言。我们引入一门平台无关命令式描述语言Midcore作为大数据处理代码与QVT-R桥接的中间语言。Ecore和QVT-R映射生成对应的Midcore描述,Midcore支持同时映射生成Hadoop和Spark代码。本方法还可以支持扩展,基于Midcore可生成其他大数据平台代码。基于本文提出的方法,我们实现了相应的支撑工具QE2HS,该工具能够将Ecore和QVT-R描述的模型和变换自动生成Hadoop和Spark代码,最后我们还进行了相关的实例研究。结果表明,该方法能够有效生成大数据处理程序的源代码代码,实现了平台细节和数据异构性的屏蔽,简化了大数据程序代码的编写复杂程度,生成的代码执行效率也是可以接受的。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
当前,干部作风总体上是好的,但仍存在一些突出问题。譬如,"装"的问题值得高度警惕。"装"的表现林林总总,不一而足。"装积极"。有的对上级会议或者领导要求,秒传达、秒表态、
纪录片最基本的属性是真实性,真实性是纪录片的灵魂。真实性有很多含义,这里的“真实性”实际上说的就是纪录片对现实生活一种接近于真实的展现,这种展现是客观的也是实在的
研究目的:研制开发区土地集约利用评价成果管理软件,实现省级行政区划范围内开发区土地集约利用评价项目成果数据的规范管理,为决策应用提供分析支持。研究方法:从开发区、时
信息化的课堂被广大教师所接受,也备受稚嫩孩子们的喜爱。利用新技术信息化开展教学活动、创设情境,既能激发学生学习数学的热情、唤醒学生的已有认知经验,又能自然引进新课
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会计是我国一个古老的职业,算盘是传统的计算工具,电子技术的飞跃发展,使电算化成为了现代会计必须要掌握的职业技能。高校会计电算化的应用可以最大限度地提高工作效率和管
《咏荆轲》诗为陶渊明咏史八首之一,这首诗歌咏历史上的刺客荆轲,而在内容与风格上与其它咏史诗以及隐逸诗形成明显区别。陶渊明对荆轲的认识源于《史记》,但是有意强化了其
STS预付费表计与传统的预付费表计相比,其售电方式和安全体系完全不同。根据IEC 62055系列标准,结合实际开发使用的经验,分析了Token码的产生和使用流程,并研究了STS预付费表