基于文本挖掘的动态本体构建方法研究

来源 :中国农业大学 | 被引量 : 0次 | 上传用户:jmrys
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本体(Ontology)是资源共享的基础,它提供了对领域知识的共同理解。本体的应用范围非常广泛,但本体的构建却是一项非常费时、费力的工作。目前,本体的建立基本还是采用手工静态构建的方式,而本体的构建应具备不断更新的动态特性。现实生活中信息的主要载体是非结构化纯文本数据,如何利用文本挖掘、信息抽取、机器学习等知识获取技术动态构建本体是本体自动或半自动构建所面临的挑战。 叙词表(thesaurus)作为上世纪发展起来的文献标引工具,概括了领域内绝大部分相关的术语和基本关系,并具备大量丰富的主题标引文献,是构建领域本体的重要来源。本文比较分析了叙词表与本体的结合方法,并在此基础上提出了基于文本挖掘的动态本体构建(Oynm~Ontolo~Construction based on Text Mining,DOC)模型。该模型结合叙词表提供的已有知识,将叙词表的描述形式转换为本体的概念模型,同时利用叙词标引的主题文献进行文本挖掘构建动态领域本体:从主题文献库中识别领域概念,进而挖掘并细化概念间的属性和关系。 针对文本挖掘中难以准确获取概念间关系的状况,为提高关系抽取的准确度,本文提出了领域种子关系(Seed Relation in Domain,SRD)的概念和思想,结合自然语言处理方法,通过确定种子关系进行关系挖掘。本文详细论述了SRD的抽取,基于SRD生成关系陈述集,以及通过关联规则挖掘进一步抽取属性规则的方法。 作为DOC动态本体构建模型的构建工具和检验平台,本文设计并开发了基于DOC¨Ⅵ的本体构建原型实验系统。该实验系统结合叙词表提供的现有资源,以领域叙词表和该词表标引的非结构化纯文本语料为输入,通过静态模型转换、动态概念挖掘、基于SRD的关系抽取以及关联规则挖掘,动态构建领域本体。 本文选用多语种农业叙词表 AGROVOC和中国农科院科技文献作为实验系统的输入数据,结果表明:系统实现了DOCTM动态本体构建的基本功能;领域叙词表为动态本体构建提供了质量保障;SRD是一种有效获取概念间关系的途径,借助种子关系可以从纯文本中提取概念间的关系;通过对OWl(Web Onology Language)定义的属性进行规则分析及关联规则挖捌可以得到概念间的部分规则,从而使本体初步具备了一定的推理能力。
其他文献
甘肃河西走廊石羊河流域干旱荒漠绿洲区位于巴丹吉林和腾格里沙漠之间,降雨稀少,地下水的过度开采以及农业用水的浪费,导致沙生植被枯萎死亡,沙尘暴肆虐,土壤盐碱化和生态环境恶化
质子交换膜燃料电池发电技术,以氢气或者甲醇作为燃料,将燃料的化学能直接转变成电能。其能量密度高,无噪音,对环境无污染,是一种极具发展前景的高效能源技术。目前燃料电池用的质
农机工业是我国机械工业的重要组成部分,是工业反哺农业的中坚力量,担负着为建设现代农业提供先进、适用农业装备的重任。计划经济体制下建立的农机工业体系已经打破,而目前形成
本文对工程项目风险基本理论进行了探讨,通过分析水利工程施工质量风险产生的原因,将影响工程质量的复杂风险源辨识为简单的风险因素,建立质量风险的评价指标体系。 本文利用
本论文从CVD法制备碳纳米管入手,开发出了一种能高产率制备高质量多壁碳纳米管的高效催化剂,同时采用反相微乳液法合成了形状较为规则的碳纳米管球,此外,针对碳纳米管在复合
本文在列斐伏尔“空间生产”理论的基础上,以空间生产视域对中国电影的空间生产格局进行厘定,分析了中国电影“空间生产”的几种主要形态,并着重对近年引人注目的贵州电影的