论文部分内容阅读
对分布异构的数据源进行无缝访问来获得相关的信息,从而达到信息共享、重用和信息系统之间的互操作已经成为当前信息社会越来越紧迫的需要。而数据源之间存在的多种异构极大地阻碍了这种需要的实现。消除数据源之间的语义异构是信息集成的核心问题之一。基于本体的语义信息集成通过建立本体来描述全局模式,在本体和各个异构的数据源模式之间建立模式映射来消除数据源之间的语义异构。这种解决办法的不足之处在于:通过模式映射的方式解决的仅仅是数据源之间的模式级异构而数据源之间的异构不仅仅包括模式异构,还包括其他类型的异构。片面地解决其中某一种异构,得到的结果不仅不能让用户充分共享和重用已有的信息,反而会给用户造成迷惑和误解,导致用户做出错误的判断。为了全面解决多种语义异构,首先要对分布数据源之间的语义异构进行研究和分析。信息的上下文语义是数据源的设计者对信息所设定的一些假设和前提,描述的是数据源模式暗含的语义,这种语义无法为计算机理解和处理。为了解决上下文语义,首先需要研究上下文语义的形式化表示。用一个四元组(D,S,CV,F)对数据源的上下文语义进行形式化表示,这是一种紧密耦合的上下文描述方法。在此基础上,将上下文仲裁机制引入已有的基于本体的语义信息集成中,将原来的用三元组(G,S,M)表示的信息集成系统扩展为用五元组(G,S,C,M,B)表示,实现上下文异构的自动检测和处理。解决上下文异构的核心问题是在同一上下文类型内部的不同取值之间进行转换。根据各上下文异构的特点,对于上下文异构的四种情况,分别提出了相应的上下文转换方法。对于发生在数值型属性之间的单位异构和数量级异构,提出了一种基于星型模型的上下文转换方法;对于发生在枚举型属性之间的表示异构,提出了一种基于等价类的上下文转换方法;对于发生在抽象数据类型的属性之间的格式异构,提出了一种基于元数据格式描述的上下文转换方法。这些上下文转换方法的共同目标是减少需要预定义的转换规则的数量,提高上下文转换的适应性、扩展性、可维护性和转换效率。实体异构是分布数据源之间普遍存在的数据级异构。已有的实体异构解决方案中存在的主要问题是效率和精度问题。通过提出一种基于上下文仲裁机制的两阶段特征向量处理方法来解决信息集成中实体识别的效率问题,通过设计一个基于公共子串的字符串相似性比较函数以改进信息集成中实体识别的精度问题。为了增强系统解决语义异构的能力,在现有的基于本体的语义信息集成系统的基础上进行了两次扩展。第一次扩展是在基于本体的语义信息集成的基础上引入上下文仲裁机制,使得扩展后的语义信息集成系统可以在模式异构得到解决的基础上对上下文异构进行自动检测和解决,第二次扩展是在第一次扩展的基础上引入分布环境下实体识别的解决方法来实现在模式异构和上下文异构得到解决的基础上对实体异构的情况进行自动检测和消除,从而形成了完整的语义异构解决方案。