论文部分内容阅读
发展面向大数据的大规模分布式网络应用架构模型及其应用软件高效开发部署方法,是当前大数据管理与应用所面临的主要挑战之一。传统的关系型并行数据库、数据仓库、查询索引、应用建模和软件开发技术,已经不能满足开发部署大数据应用的实际需求。目前,大数据组织管理的相关技术普遍存在技术模型形式化程度较低、支持大数据分区管理的普适性不强、不支持基于异构数据融合的大数据组织模式、对大数据语义分析应用支持不足等问题;面向大数据的大规模分布式应用架构和应用软件高效开发部署的成果还不多见。本文的研究源于“电子政务建模仿真国家工程实验室”所承担的,某部门国家级业务信息服务平台顶层设计和工程实施项目。围绕项目存在的7个大数据应用问题展开大数据组织管理、大规模分布式应用架构、应用软件高效开发部署相关的研究,最终落实为三大基础设施平台,并在其上成功部署该部门信息服务平台和开展业务应用。具体研究成果如下:1、针对大数据组织管理研究:基于大数据范畴,提出了由基于场景和实体实例标识的数据切片规则,和面向场景的切片分配规则共同构成的形式化数据分区方法TSEI-PS,从而形成了具有普适可操作性的大数据分区管理模型;然后,基于扩展痕迹属性后的大数据分区管理模型和刻画差异化信息的扩展项泛函,给出了差异化大数据信息资源组织模式,并结合大数据资源检索问题和检索运算,提出了支持高效查询检索的大数据资源倒排检索模式,并证明了其比遍历检索模式和层次检索模式更高效,由此形成了支持大数据分区管理、支持差异屏蔽和高效查询分析的数据组织管理平台。2、针对大规模分布式应用架构研究:通过引入有向平凡范畴,建立了由多结构化状态关系代数,协议代数和交互计算总线格代数三个对象,及其对象间态射和单位态射构成的符合有向平凡范畴定义的交互式计算范畴;在此基础上,通过把交互式计算范畴中的态射定义成微构件,并由同类微构件集合形成DOBPS所定义的分布式对象系统构件,进而提出了一个用于研究交互式计算的理论模型MIC;同时,借鉴Cougaar和DOBPS架构模型,设计了一种服务于大数据应用的分布式体系结构负载分散机制,并利用这种机制建立了面向大数据管理与分析的云计算信息服务平台。3、针对应用软件高效开发部署研究:形式化地定义了分布式大数据应用问题PDABD,并且给出了由定域算子、分域算子、子域计算算子、聚解算子和复合子域计算算子构成的PDABD求解形式的一般表达;通过把各类算子映射为MIC模型中的微构件,并把MIC应用于PDABD问题求解,从而形成了基于MIC模型的面向大数据管理与分析的,大规模分布式应用开发部署形式化方法。