论文部分内容阅读
近年来,随着云计算、物联网以及社交网络等的发展,人类拥有的数据正在以前所未有的速度增长和累积,大数据时代悄然而至。在大数据时代,能否更有效地利用数据、更高效地从数据中分析出知识在很大程度上决定了企业的竞争能力。尤其是在搜索业务,从海量数据中挖掘出的规律极具价值:它可以影响用户搜索满意度,提高流量转化率,甚至指导业务发展方向。在数据可挖掘价值不断提高的背景下,离线数据业务在面临前所未有的挑战。以数据为中心的业务,不可避免的海量数据迁移成为了离线业务处理的一个基础环节:能否高效、稳定地将数据源的海量数据迁移到目标存储系统,很大程度上决定了离线业务质量。设计并实现一个高效可扩展的数据迁移系统是很有必要的。本课题研究负载均衡的离线数据迁移方法,首先通过分析提出数据迁移模型,分析迁移性能的影响因素,并基于该分析提出迁移的优化目标。接着,给出数据迁移的系统设计,并围绕迁移优化目标从两个方面展开优化研究:从数据源层进行优化,提出LBS(Load Balancing Sharding)方法将数据源改造成分布式数据源,从而确保数据的均衡分布,并满足系统的可扩展性需求;从作业调度层进行优化,提出Astraea算法合理调度迁移作业,从作业的角度规避数据源热点,从而提高迁移效率。最后,通过大量实验验证了 LBS算法和Astraea方法的有效性。实验结果表明,数据源层的优化方法LBS将数据源析散成可扩展的分布式数据源,为数据迁移的高度并发提供了基础,同时保证数据源的负载均衡;作业调度层的优化方法Astraea算法能够有效地确定合理的作业调度方案,从调度的角度规避数据源热点以提高迁移效率。