从维基百科信息盒中提取结构化本体信息研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:dddff628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘和数据分析是目前计算机领域的一个非常活跃的研究热点,也是商业互联网公司热衷的投资方向。掌握了数据以及对数据的处理方法,就相当于掌握了互联网科技发展的关键,其中的科研价值、商业价值不言而喻。维基百科是一个开放式的网络百科全书,世界上有数以百万计的编辑与作者在为维基百科创作文章。维基百科中蕴含的大量数据拥有极高的利用价值,很多国内外的学术单位都在研究分析维基百科中的数据。基于此种现状,本文查阅参考了诸多国内外的相关研究,分析了维基百科词条现有的体系结构,找到了一个相对空白的研究方向,即基于构建本体的形式,在信息盒层面提取出结构化信息,用以辅助维基百科组织结构的规范化和维基百科知识库的完善化。本文的研究内容是提取维基百科信息盒中属性所隐含的结构化信息。如何高效精确地在给定主题的文章中将存在的信息盒内属性结构提取出来、发现合理的类关系是研究重点。论文参考了网络本体语言(OWL)的类关系定义,在信息盒属性中专注于三种特定类关系的表现形式,描述了具体要构建的本体以及其在规范维基百科结构时的作用。论文采用的研究方法是通过定义一组候选特征,从不同的角度表征信息盒属性之间的相关关系。计算属性对的相似度单一特征值和综合特征值,设计判定算法来推断属性之间的相等关系和包含关系;通过检索实例分布推断互斥关系。运用推断结果来构建本体结构,比对实验结果与人工标注的答案,评估方法的有效性。实验结果表明,本文提出的方法能够有效地提取出信息盒属性中的类关系,具有可应用可扩展的优良品质,对维基百科结构的规范化起到了帮助作用。
其他文献
2014年11月17日,“沪港通”政策正式开通,作为大陆股票市场对外开放的重要事件,具有里程碑式的意义。时隔两年之后,深交所和香港联交所也于2016年12月正式开通“深港通”。深
目的:APJ受体蛋白作为一种七次跨膜的G蛋白偶联受体,与其内源性活性肽配体Apelin所形成的Apelin/APJ系统在心血管疾病的发生发展中起着重要的作用。实验室前期报道Apelin-13/
北京市海淀区图强第二小学(以下简称'图强二小')位于五棵松地区,紧邻航天部二院,创办于1982年5月,是一所全面育人、富有办学特色的学校。作为海淀区天文教育基地校,