论文部分内容阅读
随着各种新兴互联网技术的发展,数据体量呈现出指数型增长。数据的不断累积,使得企业现有业务平台面临着性能不足、资源花费过多等问题,已无法较好的满足高性能、高并发的需求。而大数据平台存储容量巨大且支持大规模数据的复杂计算,能够对数据进行更深层次的价值分析,因此把一些存在价值的历史数据迁移到大数据平台十分有必要,不仅可以缓解现有业务平台的生产压力,还可以发掘新的业务方向。本文结合某世界前五百强通信企业的实际需求,设计实现了一个将数据从Teradata数据库迁移至Hadoop平台并自动存储归档的数据迁移系统。本系统针对结构化和非结构化数据的特征,设计实施了两种不同的迁移方案,即基于MapReduce的结构化数据迁移和基于FTP方式的非结构化数据迁移。与现有迁移工具相比,本系统能够完成一些特定需求,例如按业务逻辑清洗数据、回传部分数据等,并且只需在迁移任务开始前配置好相关参数,便能够自动实现数据抽取、数据清洗、数据类型转换、数据校验、数据加载、数据回传等一系列流程。最后根据业务逻辑和调度周期的不同,选择不同的数据格式,存储在Hadoop平台不同的层级。经过测试,本系统各个功能满足预期设计目标,具有较好的迁移性能,验证了迁移方案的可行性。同时在某大型通信企业部署本数据迁移系统,实际迁移效果较为满意,极大缓解了原业务系统的生产压力,增强了企业对大规模数据的分析处理能力,体现出本文对数据迁移的研究具有一定价值。