论文部分内容阅读
随着科学技术的快速发展,人类社会信息化程度不断提高,大数据带来的深刻影响和巨大价值逐渐被人类社会所认识,让我们以一个全新的视野来看待世界的同时,全方位地改变了我们的生活、工作和思维模式,更为科学研究带来重大的机遇。信息管理及相关学科是大数据技术发展的根本核心,重点研究与解决大数据时代中的数据采集、传输、存储(归档)、检索、处理、分析、挖掘、发布以及应用等一系列关键问题。近几十年来,随着新一代天文望远镜的不断涌现,天文学进入大数据时代,天文观测所获得的数据成为人类社会最大的数据源之一。天文学科与信息学科不断融合与相互促进,逐渐发展成为一个新兴的前沿交叉学科—天文信息学。本文充分应用了信息管理及相关学科知识,根据当前天文海量数据管理中存在的关键问题,重点开展存储与检索、传输和归档三个方面的关键技术研究。最后,以两个射电望远镜的数据管理为用例(明安图射电频谱日像仪(MUSER)和平方公里阵列(SKA)射电望远镜),通过数据仿真、实例化测试、性能对比、理论分析来验证本文相关工作的正确性。具体说明如下:1)针对海量射电天文观测数据记录的高效存储与检索需求,基于观测数据具有固定的采样间隔和固定数量的连续观测数据记录按序存放在文件中的时序数据特征,本文提出了一种以集合中的补集思想为核心的面向时序数据的数据库系统,即负数据库系统。负数据库系统将文件中存在记录以及首尾记录之间丢失记录的元数据信息视为全集,把文件中首尾记录之间丢失记录的元数据信息看成补集,通过补集构建出来的文件逻辑结构关系,能够推导出文件中存在记录的元数据信息。论文给出了完整的形式化定义以及严格的理论证明。实测结果表明:在记录入库、数据检索以及要入库的记录数方面,负数据库系统比需要存储文件中所有存在记录的元数据信息的常用数据管理系统分别快18.8倍、快1.5-6.9倍以及降低!"倍(N指文件中的固定记录数)。进而说明,负数据库系统能够在大幅度降低存储开销和记录数的同时还能提供快速的检索功能。2)针对海量射电天文观测数据的跨区域高速传输需求,本文提出了带状态检测和重传功能的两路异步消息传输模型—高效消息传输模型。该模型是指用两路异步消息传输来分别单向高速传输数据消息和反馈消息,通过超时重传来确保数据消息一定送达接收方,以及通过实时状态检测来决定是否继续向接收方发送消息。该模型能够克服当前很多远程数据传输技术都使用的出错重传方法存在的需要等待对端反馈消息而降低数据传输效率的不足。基于高效消息传输模型实现了一套高效数据传输系统,该系统的性能测试结果表明:在传输文件大小为数百KB时,该系统获得的平均传输速度比天文中现有系统快将近40倍;同时,在数百兆字节这个量级和使用较少的并发数时,该系统获得的平均传输速度达到1172MB/s(该速度基本上实现了10Gb/s网络带宽的满负载),比现有系统快将近3.4倍。进而说明,实现的高效数据传输系统有效地提高了数据传输性能,缩短了数据传输时间。3)针对海量射电天文观测数据在进行高可靠性归档时尽可能降低数据冗余的需求,本文提出了基于纠删码的归档模型—低冗余归档模型。该模型是指将纠删码技术集成到研究2提出的高效消息传输模型中的数据消息接收方而形成的归档模型。该模型能够克服现有系统使用副本技术归档时存在的高数据冗余的不足。基于低冗余归档模型和RS(4,2)算法实现了一套低冗余归档系统,该系统的性能测试结果表明:在相同的实验环境下,该系统获得的平均异地归档速度是现有系统未启用3副本策略时的1.4倍,且只需要增加50%的额外存储开销就能达到基于3副本策略时需要200%的额外存储开销才能达到的数据可靠性;并发数和HWM是该系统调优的关键参数。进而说明,实现的低冗余归档系统具有较高的归档速度和能以较低的数据冗余获得较高的数据可靠性。综上所述,本文立足学科交叉,面向天文数据管理需求,应用信息学科知识来解决天文海量数据管理中的高效存储与检索、高速数据传输以及归档难题。为天文海量数据管理解决了部分关键问题,这在一定程度上有利于提升天文海量数据管理的总体功能。研究成果也为有类似数据管理需求的应用领域提供了参考,具有一定的理论价值和工程应用价值。