论文部分内容阅读
数据挖掘和数据分析是目前计算机领域的一个非常活跃的研究热点,也是商业互联网公司热衷的投资方向。掌握了数据以及对数据的处理方法,就相当于掌握了互联网科技发展的关键,其中的科研价值、商业价值不言而喻。维基百科是一个开放式的网络百科全书,世界上有数以百万计的编辑与作者在为维基百科创作文章。维基百科中蕴含的大量数据拥有极高的利用价值,很多国内外的学术单位都在研究分析维基百科中的数据。基于此种现状,本文查阅参考了诸多国内外的相关研究,分析了维基百科词条现有的体系结构,找到了一个相对空白的研究方向,即基于构建本体的形式,在信息盒层面提取出结构化信息,用以辅助维基百科组织结构的规范化和维基百科知识库的完善化。本文的研究内容是提取维基百科信息盒中属性所隐含的结构化信息。如何高效精确地在给定主题的文章中将存在的信息盒内属性结构提取出来、发现合理的类关系是研究重点。论文参考了网络本体语言(OWL)的类关系定义,在信息盒属性中专注于三种特定类关系的表现形式,描述了具体要构建的本体以及其在规范维基百科结构时的作用。论文采用的研究方法是通过定义一组候选特征,从不同的角度表征信息盒属性之间的相关关系。计算属性对的相似度单一特征值和综合特征值,设计判定算法来推断属性之间的相等关系和包含关系;通过检索实例分布推断互斥关系。运用推断结果来构建本体结构,比对实验结果与人工标注的答案,评估方法的有效性。实验结果表明,本文提出的方法能够有效地提取出信息盒属性中的类关系,具有可应用可扩展的优良品质,对维基百科结构的规范化起到了帮助作用。