论文部分内容阅读
随着信息技术的发展,越来越多的数据被产生。这些数据中,既包含大量的结构化数据,也包含大量的非结构化数据和半结构化数据。数据的容量变的更大,数据增长速度变得更快,数据的格式变得更复杂,数据处理的需求变得更迫切,这些都给ETL带来了新的挑战。设计一个能够对大数据进行有效处理的ETL具有重要的实际意义。首先针对大数据的特点,在需求分析的基础上,提出了系统的功能目标和性能目标。根据大数据处理的要求,设计了一个能够有效支持大数据处理的ETL体系结构,并设计了ETL中的工作流。为了优化ETL的工作流,提高数据处理效率,对ETL中的数据处理规则通过分类、合并进行了重新设计,使其适合大数据环境。同时,针对MapReduce的特点,设计了MapReduce的工作流,使得ETL的工作流可以转换为MapReduce的工作流,并确定了两种工作流之间的映射规则。再次,详细介绍了系统的实现。通用数据访问模块实现了数据抽取和装载,特别是针对非结构化数据的抽取。工作流模块用来解析元数据,生成相应的本地工作流和MapReduce工作流模型。执行模块用来完成从数据抽取到数据装载的所有过程。元数据管理模块实现对元数据的存储。最后通过实验表明,系统实现了大数据处理的功能,满足了设计目标。通过使用MapReduce能够在一定程度上提高ETL数据处理效率。