论文部分内容阅读
随着信息技术的发展,大规模数据共享与协同工作环境已经成为主流应用普遍采用的工作模式。同时,以网格计算为基础的科学活动环境已经成为当前国际计算机技术研究的热点和前沿领域。其中网格数据管理属于网格计算技术的基础架构,并且在一定程度上成为连接以网格计算为基础的科学活动各部分之间的桥梁。但是,当前网格环境下的数据管理存在着管理效率低下、用户体验不友好、数据操作效率不高等诸多问题;同时因为网格系统构建技术而人为制造的技术鸿沟仍然存在,从而造成了新的信息孤岛的出现。因此,针对这些问题,需要对基于网格计算的分布式数据管理中的关键技术进行研究,具体包括元数据管理、数据传输管理、数据的量化评价以及网格间的数据互操作几个方面。
在基于网格计算的分布式数据管理的最大特征是元数据与数据是分开存放的。由于所有的数据操作首先需要对相应元数据信息进行操作,因此元数据管理是构建整个网格环境下透明数据访问的基础,同时它能影响数据操作的执行效率,从而进一步影响整个网格系统的执行效率。为了充分利用数据的空间局部性的特征,可以通过构建一种两层结构的元数据管理方式,并将为实现透明数据访问而设置的两次数据地址转换分别映射到所提出的两层结构(也即数据逻辑域和数据域)中,同时利用数据的空间局限性,使得数据的存放位置不再是随机选择存储资源,而是尽量靠近访问者的位置(也即数据逻辑域中所指定存储资源),从而提高数据访问效率。
单一集中的元数据管理与组织方式难以适应元数据在存储容量以及访问数量方面不断增长的需求。在两层结构的元数据管理方式的基础上,可以通过基于副本的元数据以提高元数据管理的可扩展性,同时在一定程度上提高元数据的可用性。这种基于副本的元数据扩展技术对网格系统中的虚拟数据视图按照其树状结构进行完整、互斥划分,并以此为最小单位对元数据进行复制。同时提出相应的元数据副本创建、读写等操作;并提出一种副本更新策略,用以维护不同元数据副本之间的一致性,从而提高整个系统元数据的可用性。进一步地,通过缓存的方式,将频繁访问的元数据缓存到本地,从而可以进一步提升元数据管理的效率,降低元数据操作的执行时间。
为了提高整个数据管理的效率,需要尽量在现有网络条件下提高数据的传输效率。并行传输是一种常用的提高数据传输效率的方式,但是通常的并行传输方式需要基于数据副本或者数据分片来完成,而这会相应地增加管理成本。另一方面,网格环境中的两点间的网络资源往往并不是唯一的,而是会有冗余链路的存在。基于这种情况,可以通过基于多路径的数据优化传输技术对数据进行并行传输,它在不改变现有网络协议的基础上,通过选择不同的中转节点以形成中转路径而充分利用网络资源中的冗余链路,并将数据通过多条选择出来的中转路径进行并行传输,以达到提高数据传输效率的目的。
相对于庞大的数据尺寸而言,网格环境中高性能的存储资源的存储容量总是有限的,因此需要将那些重要的、访问需求高的数据放置在高端存储资源之上;而那些极少访问的数据则需要迁移至低端存储资源之上。定量的数据评价正是反映数据在当前系统中的重要程度,从而可以为数据的存储资源分配及相关数据管理操作提供量化依据。借鉴经济学领域中的价值规律,可以采用一种定量的数据评价模型,它将影响数据定量评价结构的影响因素分为三个方面,即数据本身属性,数据访问状况及存储设备所能提供的数据访问能力,分别对应价值规律中的商品使用价值、商品需求状况和商品供给能力等商品属性。该量化模型在考虑数据上述三方面特性的基础上,提出了量化模型的具体公式,其结果反映了数据在系统中的重要程度,从而为制定数据存放策略提供参考。另一方面,可以通过改变数据的某些属性而达到调整数据量化结果的目的,而这种改变在实质上就是进行某种数据管理操作,例如数据迁移、数据复制等,因此可以依据该模型进行数据管理操作,实现优化数据管理方式、提高数据及存储资源使用效率等目的。
为了在更大范围内实现数据的共享与协作,同时避免新的信息孤岛的出现,需要构建网格系统间的数据互操作机制,以实现不同网格系统之间的数据相互访问能力。ChinaGrid是在中国网格领域有着重大影响的网格系统;而SRB (Storage Resource Broker)则是一种中间件平台,为通过网格链接异构数据资源提供接口;同时它也可以作为网格环境中用于数据管理的分布式文件系统,可以实现数据缓存、数据同步和备份、异构存储等数据管理功能。由于SRB是一种被众多网格系统广泛采用的数据管理中间件,因此在实现ChinaGrid与SRB两者之间的数据互操作的基础之上,可以实现在ChinaGrid和国际众多主流网格系统的数据互操作功能;同时ChinaGrid与SRB间数据互操作的方法也可用于其它网格数据管理系统与SRB系统的数据互操作中。整个互操作分为ChinaGrid访问SRB数据资源与SRB访问ChinaGrid数据资源两个部分。其中,ChinaGrid访问SRB数据资源方面,采用内建SRB访问接口的方式实现ChinaGrid透明访问SRB数据资源的数据互操作;而SRB访问ChinaGrid数据资源,则将ChinaGrid数据管理看成SRB的一个文件系统,通过建立合符SRB规范的数据访问接口,透明的访问ChinaGrid中的数据资源。通过这样的设置,将分布在异构资源上的数据共享从单个网格系统推广到了多网格系统,从而达到在最大程度上的数据共享的目的。
综上所述,在深入分析网格环境下数据管理以及围绕数据共享与数据协作而展开的科学活动的行为特征与应用需求的基础上,围绕构建透明、高效的网格数据管理服务的目的,通过重点研究网格环境下的元数据管理技术、元数据管理的扩展技术、基于多链路的并行数据传输技术、量化的数据评价模型以及多网格环境下的数据互操作技术等关键技术,为解决网格环境下的数据管理问题提供了一系列技术方法和措施。