面向大数据的ETL设计与实现

被引量 : 0次 | 上传用户:zyq201314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,越来越多的数据被产生。这些数据中,既包含大量的结构化数据,也包含大量的非结构化数据和半结构化数据。数据的容量变的更大,数据增长速度变得更快,数据的格式变得更复杂,数据处理的需求变得更迫切,这些都给ETL带来了新的挑战。设计一个能够对大数据进行有效处理的ETL具有重要的实际意义。首先针对大数据的特点,在需求分析的基础上,提出了系统的功能目标和性能目标。根据大数据处理的要求,设计了一个能够有效支持大数据处理的ETL体系结构,并设计了ETL中的工作流。为了优化ETL的工作流,提高数据处理效率,对ETL中的数据处理规则通过分类、合并进行了重新设计,使其适合大数据环境。同时,针对MapReduce的特点,设计了MapReduce的工作流,使得ETL的工作流可以转换为MapReduce的工作流,并确定了两种工作流之间的映射规则。再次,详细介绍了系统的实现。通用数据访问模块实现了数据抽取和装载,特别是针对非结构化数据的抽取。工作流模块用来解析元数据,生成相应的本地工作流和MapReduce工作流模型。执行模块用来完成从数据抽取到数据装载的所有过程。元数据管理模块实现对元数据的存储。最后通过实验表明,系统实现了大数据处理的功能,满足了设计目标。通过使用MapReduce能够在一定程度上提高ETL数据处理效率。
其他文献
“9/11”后十年是美国安全战略发生巨大变化的十年,也是国际体系发生重大变革的十年。两场(反恐)战争和一场(金融)危机深刻改变了美国对外大战略,并重塑全球地缘政治景观。有关这十
随着社会经济的发展,视频监控广泛应用于各种领域。电话线通信、双绞线通信、光纤通信、无线通信、电力线载波通信等多种通信方式的出现使视频监控应用领域进一步拓宽。电力线
近年来电子商务的发展极为迅速,作为电子商务的主要类型,B2B电子商务平台为企业带来了越来越多的商机,尤其给中小企业的发展带来了一个新的契机,然而机遇和挑战是并存的,因为现在
本文是对地域传统文化在地域景观规划设计中应用的初步探索,结合笔者的景观设计实践,通过图像研究文献研究实地考察以及案例参与等方式方法来发掘景观的传统特色和地域特性运用
<正>新西兰实行8年的小学教育,从5岁到13岁。孩子过了5岁生日后的第二天就开始上学。其中,5~6岁在学前班就读;6~11岁在初级小学(Junior School)读六年;
目前学界对唐代墓志的释文著录错讹较多,乃是因未识古文字、异体字、形近字、同形字,不明文化词语,受石花干扰而误辨,未察衍文、脱文、讹文、倒文,错误句读等诸多原因所致。
美国文学史上,萨拉·奥恩·朱厄特一直被誉为19世纪末20世纪初描写新英格兰地方色彩最好的作家。20世纪90年代,她的富含浪漫主义色彩的短篇小说《白苍鹭》、长篇小说《乡村医
高校财务风险问题一直是引起社会广泛关注的热点问题。从2009年开始教育部、财政部出台了高校化债政策,政府化债工作的实施,在2012年底使多数公办高校已经化解了债务,银行贷款基
语言测试是一门跨学科的综合科学,其目的在于利用科学的工具,对受试者的语言能力进行准确和公正的评价。语言测试的发展与语言观以及语言习得和教学研究的发展息息相关。在现代
当前,经济转型升级已成为我国经济社会发展的一项长期任务。改革开放以来,伴随着对矿产资源的大规模开发或利用,资源型区域出现了资源耗费、产业结构单一、短期经济增长波动与长