论文部分内容阅读
近年来民航信息化程度逐年提高,民航业务已经大量涉及到“互联网+”范围。但是目前民航信息系统内还没有一套完整的主数据管理体系。因为各子系统数据都有着自己的命名规则与存储规范,导致民航主数据分散在各子系统中,且相互异构。为了提高民航主数据质量,提升民航主数据价值,关联“互联网”数据,搭建民航主数据管理平台,急需研究民航主数据及民航相关“互联网”数据的管理与映射方法。首先,根据民航主数据管理的内容,选择候选民航数据,并使用基于层次分析法的主数据识别方法识别民航主数据。其次,根据评选出的民航主数据结构特征,提出了一种结合稀疏自编码以及支持向量机(SVM)的数据分类、映射方法。该方法将民航数据映射到高维特征空间形成初级特征向量;然后利用自编码神经网络进行深度特征学习,并加入稀疏性约束,使学习得到的低维深度特征维持一定的稀疏性;再经过支持向量机预测单个数据分类结果;最后通过组合投票方法获得每一组数据的分类概率。面向民航数据的实验表明,该方法对单个主数据平均分类正确率为97.44%,对一组主数据分类预测正确率达99.99%以上,能有效提高民航异构主数据映射自动化程度。第三,提出了一种基于地址主数据的“互联网”数据分级映射策略。该方法根据“互联网”数据与地址的关联性,建立四级地址树模型,使用标准地址信息描述“互联网”数据,为“互联网”数据提供统一的管理模型,有效规范“互联网”数据的结构。并提出了一种结合字符串、拼音编码以及五笔编码相似度的中文地址标准化匹配方法。实验表明,该方法匹配准确率可达69%,较只使用字符串相似度,匹配的查准率更高。