论文部分内容阅读
模式匹配是数据交换的重要组成。由于数据模型表达能力的欠缺,准确的语义信息只有模式设计者才能真正理解,模式匹配自动实现历来都是一个难以解决的问题。现有的模式匹配算法在处理复杂匹配和同名异义字段的匹配等方面以及匹配的效率方面都存在一定的不足,使得模式的匹配工作经常需要用户大量参与,成为数据交换应用中的瓶颈问题。
针对模式匹配中存在的上述问题,本文主要研究了基于加权模糊概念格的模式匹配算法,研究内容及成果如下:
(1)研究了模式分类的策略,利用机器学习中重要算法贝叶斯学习法分析模式信息的语义,并以此为基础提出名称分类算法、描述分类算法以及类型分类策略归类模式元素。
(2)研究了模式信息整合方法,通过形式概念分析法整合分类结果、元素类型信息以及约束信息,并提出了基于矩阵分析的概念格快速构建算法,该算法通过对形式背景对应矩阵的深入分析,找出该矩阵与形式概念之间的内在联系,从而使得算法在概念的搜索过程更有目的性,减少了计算步骤,提高了搜索效率。实验结果表明,本文提出的概念格构造算法性能优于SSPCG及NextClosure算法。
(3)研究了概念相似度的计算问题,在传统形式概念的基础上引入了权值及模糊值,提出一种针对加权模糊概念格的相似度计算模型。
(4)基于上述模式分类的策略、模式整合方法以及相似度计算模型,提出基于加权模糊概念格的模式匹配算法。在对初始模式信息归类后,将权值与模糊值引入传统形式概念分析法整合归类信息,具体包括:创建加权模糊形式背景、获取蕴涵的概念、确立概念间偏序关系以及生成加权模糊概念格;建立加权模糊概念格的相似计算模型,设定格式阈值,计算最终概念之间的匹配度,获取模式元素之间的匹配关系。实验结果表明,基于加权模糊概念格的模式匹配算法策略在问题规模大且复杂的情况下,能够有效获取匹配项,保证查准率与查全率,减少后期人工筛选的工作量。