论文部分内容阅读
遥感数据是地球信息科学及其相关领域科学研究和生产工作中最重要的基础性资源,其应用已覆盖了地球信息科学相关的各个领域。基于遥感数据(特别是高分辨率遥感影像数据)的信息提取,是遥感数据的主要应用方式,是智能城市、环境监测、地质灾害预警、土地利用监测、植被监测、水体和海洋遥感、农业遥感和大气研究等行业进行科研和生产工作的常用技术手段。而如何对遥感数据进行有效的组织、管理、处理、计算与分析,是进行遥感数据信息提取的前提。随着3S技术和信息技术的不断发展,多源、多时空分辨率的遥感数据呈现出海量化趋势,累计数据量往往达到TB甚至PB级。以嫦娥二号月球影像数据为例,原始条带影像的数据量已达到3TB,处理完成后的产品数据也高达800GB,这样庞大的数据量,已远远超出一般图形工作站的处理能力,对遥感数据的存储、管理和计算都提出了新的要求。以发生于2014年3月初发生的马来西亚航空公司MH370客机失联事件为例,虽然号称动用了十颗卫星进行搜救,但却收效甚微,其根本原因就在于海量遥感数据计算的困难性,从卫星获取的遥感数据首先要经过一系列校正处理才能投入使用,要在海域遥感数据中找到飞机影像信息还需要进行精度要求较高的特征提取与识别,在数据分辨率高、数据量大、时间仓促的情况下,现有技术无法及时有效的完成上述数据处理、提取与识别工作,导致虽然调用了大量资源却无法达到预期目的的局面出现。本文在课题组前期研究成果“面向数据的架构”基础上,针对遥感数据计算特点,分别对遥感数据的分布式计算理论、关键技术等进行了深入研究,主要研究工作包括:(1)基础设施与数据资源的统一描述方法研究。深入分析了计算机信息系统及其构建方法的发展历程,并对大数据相关理论和技术进行了总结;在此基础上,提出“广义数据”的概念,并通过数学方法对其进行了定义和描述;按照“广义数据”的具体内容,参考林奈分类法,设计了一种“广义数据”的分类体系,并按照该体系对广义数据类别进行了初步划分;设计了一种组合编码的“广义数据”编码方法,并在此基础上设计了基于元数据的“广义数据”数学描述方法,实现对系统中基础设施和数据资源的统一描述。(2)海量遥感数据的分布式计算方法研究。分别对遥感数据的组织模型和分布式计算模型进行了研究。建立了一种多层影像按需剖分的遥感数据组织模型——弹性影像金字塔模型,该模型将遥感数据划分为多个影像区块(Region),对该模型的构建算法进行了详细阐述;设计了一种基于元数据的影像区块存储方法,并建立了一种通过影像区块ID对其进行封装的方法。对遥感数据分布式计算的需求进行了分析,并对其计算流程进行了划分,并定义了一种公式表示法,对遥感数据分布式计算模型进行了描述。针对遥感数据分布式计算中的冗余结果问题,分别采用了空间密度聚类算法和基于小波变换的影像融合算法对矢量结果数据和栅格结果数据进行处理。(3)面向“广义数据”的系统构建技术研究。通过“广义数据”概念对大数据系统构建进行了化简,设计了一种面向“广义数据”的DOA架构,并着重对其中的分布式数据注册中心关键技术进行了研究。设计了一种分布式的内存数据集——运行备份数据集,对其组成结构、操作方式和工作状态进行了详细设计,在此基础上,设计了一种适用于分布式元数据管理的自适应主从模型,该模型采用一种仿效Paxos的两阶段选举算法SimpleElect实现了对主节点的自动选举;通过性能仿真对该模型的基本性能、可用性、容错性和扩展性进行了分析。综合运用上述技术,本文还设计了一种扁平化的数据注册中心架构,并对其工作机制进行了分析。(4)遥感数据分布式混合计算框架研究。综合运用前述研究的各项理论和技术成果,对Chaos计算框架的总体架构和各层实现进行了设计,并将其应用到嫦娥二号月球遥感影像数据的处理和计算中,作为实例展示。本文取得的主要创新点包括:(1)提出了一种面向海量遥感数据的分布式混合计算方法模型。在深入研究批处理计算、流式计算、迭代计算等分布式计算模型的基础上,提出了遥感数据分布式计算的划分方法,将分布式计算过程分为遥感数据分割(Split)、分布式处理(Process)和结果数据归并(Reduce)三个流程,并通过对这三个流程的组合调用实现不同的遥感数据计算模式。同时,还设计了一种遥感数据的组织管理模型——弹性影像金字塔模型,以解决分布式计算过程中的数据组织管理问题。(2)提出了一种分布式数据注册中心的构架方法。分析了单点式数据注册中心的架构及其存在的问题,以目前大数据系统中元数据管理模型和技术为基础,提出一种分布式的内存抽象——运行-备份数据集,并在此基础上设计了一种分布式元数据管理模型——自适应主从模型。最后,综合上述研究成果,设计并实现了一种扁平化的分布式数据注册中心架构,实现高效的分布式元数据管理。(3)提出了一种信息系统中基础设施与数据资源的统一描述方法。围绕“以数据为核心”的理念,以实现“面向数据”为目标,将系统中基础设施和数据资源都囊括到“广义数据”的概念中,并对其分类体系和描述方法展开研究,建立了一套通过“广义数据”对分布式计算集群中基础设施和数据资源进行统一描述的方法体系;并将这种方法与“面向数据的体系架构(DOA)”结合起来,建立了面向“广义数据”的系统构建方法。