论文部分内容阅读
诸如银行、电信等行业都有着业务集中、数据集中、大业务量、业务连续性强的特点。数据量的急剧增长对数据的存放、管理和使用提出了挑战。目前,分级存储管理(HSM)是解决这种海量数据管理的一种主流方式。
分级存储管理一般由数据迁移系统来实现。而数据迁移系统要解决两个关键问题:数据迁移和存储管理。数据迁移通常包含以下技术:一、不同主机或存储设备之间的数据文件或数据块的传输技术;二、数据库之间海量数据的(增量)导入、导出技术;三、异构数据库之间的数据映射与转换技术;四、针对具体应用环境所采用的其它技术(如迁移作业的调度管理)等。在存储管理方面,目前除了对存储设备本身(如磁盘阵列、磁带库、光盘库)的存储管理技术研究外,存储资源的整合与虚拟化的研究则是另一个需要深入研究的问题。本文以邮储历史数据管理软、硬件环境为基础,从用户的实际需求出发,按照生产系统数据库、历史系统数据库、光盘库三个存储层级对数据迁移系统进行了研究与实现。本文的研究工作包括以下几个方面:存储规划、Oracle表数据迁移脚本工具的编写、批量迁移作业的调度和离线数据归档管理。其中,批量迁移作业的调度和归档数据存储算法是本文研究与实现的重点。
在批量迁移作业的调度执行方面,作者借鉴了开源的OpenPBS以及其它作业系统的一些设计思想,实现了更实用的批处理作业管理系统。调度系统将作业分派在多台主机上运行,使主机之间负载均衡,还可以将作业分派在预先指定的机器上,从而大大缩减了数据迁移的处理时间。在光盘库离线数据文件存放管理方面,本文通过分析多目标优化问题的基本原理,同时考虑了文件关联性的保持和光盘存储空间的利用率,提出了一种存放带约束多目标关联文件的进化算法,并与SPEA2算法的实验结果进行了对比,验证了它的有效性。另外,通过对离线归档数据文件的元数据分析,系统还实现了有效的离线数据存储管理。