论文部分内容阅读
我们已经从信息时代走进了“数据驱动”的“智慧时代”,数据的资源化已成为知识服务重要发展方向。对信息资源语义化和深度挖掘的需求,将提供焦点问题发现、为信息找用户相交的发现性服务也将是知识服务的又一趋向,基于用户的特定需求,对信息资源中的隐含信息进行智能提取,将转换的可理解、可利用的信息提供给用户,协助用户进行问题分析与处理。随着语义网概念的提出,具有语义描述能力的本体技术获得了广泛关注。本体技术是一种常用的语义网络知识表示方法,其设计理念是将领域知识表示为带标签的图,其中节点表示领域概念,边表示概念之间的语义关系。语义网络因其简单、灵活、丰富、易读等优点,在计算语言学、生物学、医学等诸多领域得到广泛应用。WordNet、UMLS、SNOMED CT等大型术语系统都体现了语义网的基本思想。应用本体技术描述和揭示蒙医药学基础理论、疾病、症状、症候、方剂、药材、药性、药味、诊疗方法等资源之间的语义关系,构建知识库,是实现蒙医药学资源语义检索、语义推理和知识发现的有效途径。本文选择重要的蒙医药学文献,其中包括权威工具书、蒙汉文古籍、现代图书、期刊论文、学位论文等数据源,建立蒙医药学基础数字文本集。根据蒙医药学的特点,参照国际标准中医药学语言系统语义网络框架(ISO/TS17938:Semantic Network Framework of Traditional Chinese Medicine Language System,下简写为TCMLS-SN),探索建立蒙汉双语的蒙医药学概念语义分类层次模型和语义关系模型。根据语义模型提出了一种词向量包(Word Embedding)的语义标注算法进行基础数字文本集蒙医药概念的分类标注,建立蒙医药学基础概念库,并在此基础上构建蒙医药学领域本体,开发蒙医药知识库原型系统。主要研究包括:(1)蒙医药文献预处理根据领域专家的推荐选择蒙医药学重要的古籍、现代论著、权威工具书、期刊论文、学位论文为数据源。利用内蒙古大学图书馆建立的蒙古文古籍数据库、蒙古文现代图书数据库和中国基本古籍库等全文数据库收集数据源的数字文本。对无法获取数字文本的印本文献进行扫描OCR识别、校对,建立基础数字文本集。(2)蒙医药领域概念体系模型蒙医药学有着自己独特的理论体系。蒙医药学以阴阳五行、五元学说理论为指导,贯穿了人与自然的整体观。蒙医学把“五行”(或五元)凝练为“三因学说”,即赫依、希拉和巴达根。“三因学说”是蒙医学的理论基础,用来阐释一切生命活动、病理过程,指导着诊断与治疗的实践。结合蒙医药理论和实践特点,参照TCMLS-SN,从语义层面上对蒙医药领域概念进行分类,定义蒙医药领域概念语义类型(Semantic Type)和语义关系(Semantic Relation)。定义蒙医药语义类型,其来源包括:(1)蒙医药领域的特色概念,如“三根”、“七素”、“六基症”“黑脉”、“白脉”“放血疗法”等;(2)与中医药领域的概念等同概念,如“脏腑”“腧穴”等;(3)通用概念,如“症状”、“症候”、“病因”、“病机”、“药用物质”等。在最顶层分为“实体(Entity)”和“事件(Events)”两大类,并由此展开其层次结构,形成蒙医药领域概念语义模型。(3)蒙医药学文本挖掘应用中科院信息研究所的NLPIR汉语分词系统和内蒙古大学模式识别与人工智能实验室的蒙古文分词系统对数字文本进行分词处理,分割出基础词汇,建立基础词库,在基础词库基础上,本文提出了一种基于词向量包的方法进行词汇的分类和语义标注,生成蒙医药基础概念集。(1)词向量生成。根据上节定义的蒙医药学语义类型及语义关系集,将分词得到的基础词库中词汇识别分类为上述语义类别和语义关系集中的一种或多种,即把文本中的所有词汇标注一种或多种语义类型或语义关系标签。采用词向量技术来表示文本中的名词语义概念,并通过机器学习算法训练生成文本标注(分类)识别模型。(2)蒙医药学概念语义标注模型。词向量生成后,采用机器学习的经典分类模型k近邻(KNN)来实现概念的分类任务,即把每个语义名词分类为蒙医药学语义类型和语义关系集中的一种或多种标签。(3)蒙医药学领域概念集基础词库在经过分类和语义标注形成了蒙汉文双语的蒙医药基础语义概念集。课题将通过领域专家咨询法和《蒙古语语义信息词典》等工具对其进行优化,形成蒙医药学蒙、汉对照的语义概念词库。(4)基于概念格的蒙医药学领域本体构建在获得了蒙医药学基础语义概念词库后,构建蒙医药学领域本体的思路为:在语义概念词库的基础上依据骨架法的流程,明确本体构建的目的和范围;针对蒙医药域特点采用自顶向下的方法分析领域本体,然后参照蒙医药理论体系,通过领域专家的参与,建立起概念间的属性关系和实例添加;最后选择适当的形式化语言表示本体。(5)蒙医药领域概念语义检索与推理本体构建为语义推理建立了基础。课题将以蒙医药本体提供推理事实为的基础,利用SWRL(SemanticWebRuleLanguage)规则语言和Jess推理引擎来实现诊断推理和方剂推荐。例如:在蒙医药诊疗实践中,医生通过对病人观察、病人口述病情结合现在医学的一些检查化验结果来得知病人病情。病人的病情状态总结为蒙医的症状、脉象和舌象等。通过这几个概念来确定患者证候,针对证候开具药方。在蒙医领域本体中则涉及3个重要概念的类及其下位概念:症状(包括主要症状、次要症状、脉象、舌相);证候和方剂。(6)蒙医药学知识库构建将面向蒙医药临床诊疗、教育教学和科学研究等实际需求,进行蒙医药领域知识库的开发。在上述研究基础上,通过系统开发,将各类算法集成,实现基于领域专家干预的本体的演进和迭代。并在HP实验室Jena本体工具集基础上进行研究和开发,使其适合蒙医药领域本体的存储、查询与推理。知识库将涵盖所有蒙医药领域的语义类型,具有语义检索与推理、知识可视化呈现、诊断辅助、误诊提示等功能实现领域文献到领域知识的转化。主要创新点如下:本论文创新点主要有以下三个方面:(1)基于文献数据挖掘定义蒙医药学领域语义概念集,采用形式背景分析的理念构建蒙医药学领域本体语义系统本文根据蒙医药理论体系特点,在语义层面上对蒙医药领域概念进行语义类型和语义关系集的定义。并通过文献数据挖掘,将领域概念进行分类标注,构建蒙医药领域语义概念集。在此基础上,采用形式背景分析的理念构建蒙医药学领域领域本体语义系统,该语义系统既可充分揭示蒙医药学领域概念间的语义关系,同时在一定程度上消除不同文献典籍中概念不规范、不统一而产生的概念歧义。(2)基于等同语义的蒙汉双语本体构建实现蒙汉概念的语义互联本文根据OWL的语义定义规则,提出等同语义的双语构建模型。模型定义包括等同类、等同对象属性、等同数据属性、等同个体4个等同语义形式。通过对本文第三章所获得的蒙医药领域概念的层次结构建立相应的类Class、子类subClass和个体Individuals。通过对类和子类的Equivalent class的属性和个体的Same Equivalent class As的属性控制,实现蒙汉概念的语义互联。(3)设计和开发蒙医药学知识库的原型系统,实现蒙医药学知识库的语义检索与知识发现面向蒙医药学领域临床诊疗、教育教学和科学研究等实际需求,设计和开发蒙医药学领域知识库原型系统,利用Jena推理引擎实现诊断推理和方剂推荐。