论文部分内容阅读
突飞猛进的信息化使得各个应用领域所积累的信息资源在飞速增长。爆炸式发展的网络信息资源为人们提供了丰富的信息资讯,同时也将人们淹没在信息资讯的海洋中,难以选择信息,难以管理信息。这些信息形式多样、缺乏统一的描述方式,在传统资源管理方式下,由于网络信息资源缺少统一的语义描述,用户难以查找到与需求相关的资源,难以实现相关资源的语义融合。如何使被管理信息资源具有应用程序可以理解的含义,方便用户查找到与需求相关的信息资源,并根据信息资源所具有的领域知识,实现信息资源的语义融合,这些问题是现在信息资源管理所面临的难点。语义万维网代表着下一代万维网技术的发展方向,其着眼点在于解决当前万维网应用中所出现的大量问题,致力于通过网络实现资源共享和应用协作。语义万维网技术的发展为解决信息资源管理带来的难题提供了新思路。本体是共享概念模型的明确形式化规范说明,能够以一种明确的、形式化的方式来表示领域知识,提高异构系统之间的互操作性,促进知识共享。OWL是W3C推荐的网络本体语言,以描述逻辑为基础,能对本体作有效的描述和推理。针对电子政务领域资源管理状况本文研究了基于领域知识的资源管理平台框架,提出了基于OWL的电子政务知识本体(E-Government Ontology,EGO)以及相应的开发过程和方法,并开发了以“固体废弃物环境污染治理”为核心的知识本体。针对资源管理平台中用户难以检索到相关资源的实际状况,本文还提出了基于领域知识本体的语义距离和相关度算法、本体概念辨析以及基于本体概念语义相关性的语义检索方法。最后作为知识本体驱动的资源管理平台框架的实验系统,本文还开发了原型系统,提出了基于J2EE架构的知识本体在电子政务领域资源管理中的应用模式。资源描述与推理是实现资源共享和应用协作的关键性技术。知识本体是将网络环境下的大量非规范性知识进行概念化表示的一种有效手段,它能够有效促进应用之间的概念语义共享。应用对应描述逻辑的本体描述语言描述的知识本体能够为网络上的资源提供机器可以理解和推理的描述信息,它是实现资源共享和应用协作的前提基础。基于OWL的电子政务知识本体EGO采用符合W3C组织标准的语义描述技术,将领域知识本体以计算机可读、可理解的形式化方式表示出来,有利于电子政务领域信息资源的共享和应用协作。EGO是一种基于OWL的针对电子政务领域的可扩展知识本体。EGO通过建立概念、概念之间的继承、实例关系以及约束等关系可以表达领域知识。EGO可以应用于网络上各种资源的语义描述。将描述文件(RDF/XML格式)、EGO结合描述逻辑的推理能力,可以将描述的隐含语义显式化,得到描述资源中各种本体概念的相互关系,提供被描述资源的机器可理解语义。EGO解决了传统专家系统中知识库难以被网络环境下的各种应用所重用的弊端,可以实现领域知识的高度重用。EGO中的概念语义距离和相关性计算是EGO智能应用的两个重要内容。概念的语义距离/相关性计算能够解决传统知识表示中定性概念之间关系难以量化计算的问题。与向量空间算法和概率算法不同,EGO基于领域知识模型利用概念之间的语义距离进行概念相关性计算。语义距离/相关性的计算方法考虑了本体概念层次体系中概念的疏密程度、在层次体系中的深度、概念之间关系的权重等方面对语义距离/相关性的影响,在环保本体概念体系中能较好地反映本体概念之间的相关性。通过概念相关性的量化计算,应用程序具备了对EGO中定性概念做出基本定量判断的智能。概念语义距离/相关性计算是基于EGO的资源管理平台框架中提高检索结果相关性、实现智能推理的重要基础。针对用户关键词/关键词组合的概念辨析能比较有效地捕捉用户关键词组合的语义上下文信息,比较贴切地反映用户的搜索意图。一组关键词同时出现为这些关键词彼此之间确定了一个上下文环境,相对应的该词汇的涵义(即其要表达的概念)能确定下来。本体概念辨析应用本体概念语义距离和概念之间的相关性提出了一种基于语义距离的概念辨析方法,帮助提高语义搜索的准确性。首先,我们对本体概念体系中的概念作了本体概念同义词扩展。用户输入关键词/关键词组合时有可能输入本体概念词汇项的同义词,这种情况下,同义词扩展有利于提高本体概念匹配用户指定关键词的概率。其次,这种辨析方法先考虑本体概念集中本体概念的词汇项与用户关键词匹配的程度,可能是完全匹配,也可能是部分匹配,找到某个用户关键词的对应本体概念的待选集合。然后,考虑某个用户关键词(记为keyword-A)的待选本体概念集合中的某本体概念(记为concept-A)与其他用户关键词的待选本体概念集合中的多个本体概念的相关性,相关性指标数最高的本体概念将被选为与用户关键词keyword-A对应的本体概念。这种概念辨析方法不仅仅考虑用户关键词和本体概念的匹配关系,还考虑了待选的本体概念之间的关系来反映多个用户关键词之间的隐性的语义上下文,能起到较好的概念辨析作用。基于本体语义相关性的语义搜索方法将搜索信息时反复调用的逻辑推理过程转换为语义信息标注时逻辑推理过程的一次调用与数据库查询的组合。能将推理机承担的大量的语义推理任务转移到数据库引擎上作数据库搜索,充分利用数据库引擎的稳定、快捷的优势。语义标注是语义检索的基础。语义标注的过程中,遵循W3C推荐的标注协议(Annotea Protocols)将RDF/XML格式的标注文件独立保存到标注服务器中。然后抽取出标注文件的标注主体,并将标注主体解析为本体概念和实例存储入另设定的数据库表中,结合本体概念中语义距离和语义相关性可以作有效的语义搜索。作为本论文研究的实验系统,开发了基于本体概念语义距离/相关性的资源管理平台原型系统。通过对资源内容的EGO语义描述,原型系统能够基于领域知识语义相关的概念,帮助用户合理利用更多相关资源。