论文部分内容阅读
随着二胎政策的开放和生活质量的提高,孕产妇在妊娠期和产褥期的健康状况愈加受到重视。科学地组织孕产健康领域知识,提供孕产期保健服务,能有效改善妊娠及分娩期病症,保障孕产妇及婴儿健康。由于本体能够对知识进行有效地表达、查询、推理与共享,并可以消解不同领域知识的语义冲突,论文将本体引入到孕产领域,用本体进行孕产信息描述,实现孕产知识库的构建。从现状来看,本体构建大多为手工构建,费时费力,且难以动态更新和维护。因此,本文重点研究孕产领域本体的半自动化构建,即对孕产领域信息的抽取,主要包括本体概念的抽取、本体概念间关系的抽取(分类关系和非分类关系)。以抽取结果为基础,结合专家意见,完成孕产健康领域本体知识库的构建。本文主要研究工作如下:(1)提出由改进后的TFIDF算法与信息熵相结合的TFIDFEP方法孕产领域具有概念和概念间关系复杂、用语规范、准确性高及自然语言分析技术深度不高等特点。相对语言学的抽取方法,统计方法具有更高的灵活性和适用性。本文分析了基于领域一致度和领域相似度和TFIDF等常用的统计方法;然后对TFIDF方法进行改进,结合信息熵提出TFIDFEP方法,通过计算概念在领域中的权重得到领域集;实验结果表明所提出的方法具有更高的准确率、召回率和F值,能抽取更多且准确的孕产健康领域概念。(2)提出k-means算法与蚁群聚类算法结合的方法本文研究了基于聚类的常用概念间关系抽取方法,提出一种K-means算法与蚁群算法相结合的方法,选择VSM表示文本,并计算概念间相似度,利用蚁群算法对概念术语聚类,K-means算法对术语进行层次聚类,并将相似度最大的术语作为类标签。该方法能更好的实现孕产领域概念间分类关系的自动获取。(3)提出关联规则与VF*ICF相结合的方法对于非分类关系的抽取,常通过分析句法结构和依存关系来对非分类关系进行标注,动词的识别是该过程中最为关键的任务。文中采用关联规则方法抽取概念对,利用VF*ICF抽取领域动词,最终完成三元组的构建,以更好的表示孕产领域概念间的非分类关系。(4)构建孕产领域本体知识库对孕产健康领域信息进行预处理,如分词、去停用词、词性标注等;然后抽取出概念术语和概念间关系为本体构建奠定基础;结合领域专家的意见,利用protégé工具创建类、属性、关系和实例,使用SWRL语言编写诊断规则,构建孕产领域本体知识库,并将OWL格式的本体持久化于MySQL数据库中。