论文部分内容阅读
学术文献是科研成果的结晶,蕴含着丰富的知识和智慧,面对当前知识爆炸,人们需要对其进行有效的组织和管理。知识抽取是对学术文献中知识点进行抽取,以格式化的形式存入知识库,是对文本知识组织的一种新的方式,属性抽取作为知识抽取的一种应用,是将不同文献中对于某一学术概念的属性集中起来,有助于全面地了解这些学术概念。本文通过对国内外属性抽取的研究热点、对象、方法和结果评测等方面进行综述分析,发现从学术文献中进行抽取非常具有价值,是文献处理的一种潜在发展趋势。
本文对知识抽取系统中学术概念属性的抽取进行了研究,首先对抽取规则的形成方法进行了探讨,提出一套学术概念属性规则的构建流程,并通过大量的文献阅读和分析,人工构建了属性抽取的九大类的抽取规则,还对属性描述的数量关系和情感信息进行了讨论;然后对知识抽取系统中属性抽取系统进行了设计,确定了一套属性抽取的流程,并对系统中文献内容解析模块、文本预处理模块、规则构建模块和属性抽取模块这四个关键模块的进行了具体阐述;最后对属性抽取系统进行了实现,并把机器抽取的结果和人工标记的结果进行了结果测评,还对结果进行了分析,找出当前研究的不足和下一步工作的方向。
本文的创新点是采取知识单元的方式从学术文献中抽取知识点,并对属性描述进行了数量关系和情感信息方面的分析。本文通过《情报理论与实践》2009年的387篇全文进行阅读分析来构建抽取规则,并选取《情报学报》2007年140篇和2008年的113篇全文进行了实验,规则来源与实验数据选择不同期刊,说明规则具有一定的适应性;本文还对机器抽取结果和第三方人工标记结果进行了测评分析,为进一步的深入研究奠定了基础。