论文部分内容阅读
随着观测能力的不断提升,天文观测获取的数据量呈爆炸性增长,大量优异的天文学研究成果建立在这些海量的历史观测数据之上。因此,建立一个长周期天文观测数据归档系统对于天文学研究有着重大的意义。然而这些海量的天文观测数据给归档系统带来了不可忽视的能耗和性能问题。其中,存储布局的优化是能够减少能耗并提高性能的有效方式。由于归档系统数据请求往往是针对天球面上的某一区域,观测现场的时间集聚存储布局方式在能耗和性能查询方面往往开销很大。采用空间集聚存储布局是优化归档系统能耗和性能的有效方式。但是,如何在保持较高的存储容量利用率的同时将邻近天区的观测数据聚合到同一个存储设备上并且实现不同存储设备数据量的负载均衡是一个具有挑战性的问题。
针对该问题,本文为归档系统开发了存储布局转换工具AstroLayout。在将观测现场产生的天文数据加入到归档系统时,AstroLayout可以根据原始观测数据生成一种新的适用于归档系统的空间集聚存储布局GpDL,并完成从源存储布局向GpDL存储布局的数据复制。本文提出的GpDL布局创新性地将图划分算法引入到长周期天文数据归档系统的空间集聚存储布局生成方案中来,先用HEALPix对天球面进行了初始的细粒度划分,然后根据数据分布的密度使用图划分算法将邻近的微小区域聚合成数个子区域,实现了不同子区域数据量的负载均衡。在数据复制的过程中,AstroLayout兼容硬盘、光盘、磁带等多种目标存储设备,还提供了断点续传、超时检测、文件校验等功能以增强工具的可用性。
实验表明,GpDL在保持了高达91%的存储容量利用率的同时,为归档系统节省了资源并提升了数据查询速度,与TaDL(观测现场的时间集聚存储布局)、AmrDL(一种基于自适应网格思想实现的空间集聚存储布局)和SrpDL(一种基于SparkRangePartitioner思想实现的空间集聚存储布局)相比,GpDL有效地减少了相同数据请求下的能耗和查询等待时间。
针对该问题,本文为归档系统开发了存储布局转换工具AstroLayout。在将观测现场产生的天文数据加入到归档系统时,AstroLayout可以根据原始观测数据生成一种新的适用于归档系统的空间集聚存储布局GpDL,并完成从源存储布局向GpDL存储布局的数据复制。本文提出的GpDL布局创新性地将图划分算法引入到长周期天文数据归档系统的空间集聚存储布局生成方案中来,先用HEALPix对天球面进行了初始的细粒度划分,然后根据数据分布的密度使用图划分算法将邻近的微小区域聚合成数个子区域,实现了不同子区域数据量的负载均衡。在数据复制的过程中,AstroLayout兼容硬盘、光盘、磁带等多种目标存储设备,还提供了断点续传、超时检测、文件校验等功能以增强工具的可用性。
实验表明,GpDL在保持了高达91%的存储容量利用率的同时,为归档系统节省了资源并提升了数据查询速度,与TaDL(观测现场的时间集聚存储布局)、AmrDL(一种基于自适应网格思想实现的空间集聚存储布局)和SrpDL(一种基于SparkRangePartitioner思想实现的空间集聚存储布局)相比,GpDL有效地减少了相同数据请求下的能耗和查询等待时间。