论文部分内容阅读
语义网提出以来,本体(ontology)正在成为人工智能和知识工程中的一种重要工具,在知识的获取、表示、分析和应用等方面具有重要的意义。其中,本体的构建与扩展是本体研究的核心和关键。随着领域知识的增加和应用需求的发展,本体的扩展成为本体建设的重要环节。但目前关于本体的扩展尚无系统、深入的研究成果,一些涉及本体扩展、进化的研究多侧重于技术层面,与实际应用相脱节。因此,如何将本体扩展理论应用于实际,不断的对现有本体进行丰富和完善,成为本体建设的一个重要课题。 本文首先对现有的初始金融年报本体进行介绍,在此本体的基础上,以大量的上市公司年报为语料,研究并实现了本体的自动扩展。然后利用定义好的本体对上市公司年报进行语义标注,将非结构化的HTML文档转换成带有语义表示的XML格式。最后,通过实验对本体自动扩展以及语义标注的结果作了详细的分析。本文的研究内容主要包括以下几个方面: (1)通过对当前本体扩展方法的研究,提出了基于统计、基于上下文结构的两种本体学习方法对初始本体进行扩展。 (2)对上市公司年报的语义标注方法进行研究。开发了一个半自动语义标注工具。并对上市公司年报中的自由文本,即非表格部分进行了自动的语义标注。 (3)通过实验,对基于统计、基于上下文结构的两种本体扩展方法进行对比,并对结果作了详细的分析。 (4)综合两种方法的结果,对现有本体进行扩展。并对比了扩展前后的本体对语义标注结果准确率的影响。 经过扩展后的本体,在初始本体的基础上添加了将近300个同义词,新增了40多个概念,以及20多个实例。扩展后的本体使语义标注的准确率得到了显著的提高。目前该本体系统已经被应用于本课题组的金融年报语义网搜索引擎中。