基于中医古籍的知识图谱构建与应用

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:zhuhuajian21004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中医学是中国古代医学的瑰宝,是历代医家思想、文化以及智慧的结晶。中医古籍是中医学发展的主要知识载体,记载了中华民族几千年的医学知识以及实践经验,如《黄帝内经》、《伤寒论》、《金匮要略》等中医古籍文献承载了中医基础理论和临床方剂的核心知识,历经几千年的临床验证和发展,极具医学研究及临床价值。在人工智能和大数据技术时代,进行中医古籍文献知识的挖掘和利用是中医药学传承与创新发展的重要基础任务之一,但仍存在如下显著挑战:(1)中医古籍容量巨大,且都是以书籍的形式记载,数据以非结构化文本为主要形式,古籍数据如命名实体等的人工处理与提取耗时耗力。(2)古籍文献都是以文言文进行记录,文言文所用字词简练,与现代文在词汇和语义上存在较大不同,用于人工智能分析的标准数据集尤为缺乏,因此,给计算机方法从古籍文献进行自动抽取提供了较大障碍。(3)以临床诊疗辅助为目标,如何对中医古籍关系知识进行快速查询与应用也存在较大问题。针对以上问题,本文主要从以下三方面开展研究。1)基于深度神经网络的中医古籍命名实体识别研究。本文通过人工方式对古籍文献数据进行命名实体标注和审核,并形成了具有1179408样本的标准语料库,该语料库包含11种命名实体类型及1895210个实体,为开展面向中医古籍的命名实体抽取方法研究提供了重要数据基础;通过Word2Vec、ELMo、BERT不同方法构建词嵌入模型并作为输入通过BILSTM+CRF模型进行命名实体识别任务。最终实验结果中BERT+BILSTM+CRF模型获得了最好的实验效果,精确率达到83.07%,F1值达到83.25%。其中结果相对较差的模型Word2Vec+BILSTM+CRF精确率也达到了80.16%,F1值达到了80.34%,总体上在古籍实体抽取中获得了良好的实验结果。2)基于深度神经网络的中医古籍实体关系抽取研究。首先通过人工方式对古籍文献数据进行实体关系的标注和审核并形成标准语料库,最终从662本古籍文献中得到90705条关系数据。基于此关系抽取标准语料库,分别利用BERT+BILSTM+CRF的pipeline方法以及PCNN+ATT方法进行直接关系抽取。其中PCNN+ATT方法进行关系抽取得到63.25%的精确率以及63.57%的F1值。而相比之下,基于BERT+BILSTM+CRF进行命名实体识别再进行关系抽取的pipeline方法得到61.43%的精确率和61.99%的F1值。实验也验证了基于注意力机制的方法在关系抽取上取得相对好的效果。3)中医古籍知识图谱库构建与案例分析。采用Neo4j图形数据库进行中医古籍知识图谱库构建,将人工标注以及智能抽取审核的关系数据存储到知识图谱平台中,形成共计119380个实体以及164028条关系的中医古籍知识库。进一步,我们基于Neo4j搭建的前端可视化平台,为该知识图谱的查询和利用提供了便捷技术支持。
其他文献
目的:探讨米索前列醇和米非司酮用于中期引产的临床效果,为临床应用提供数据支持。方法:回顾性分析2008年10月~2010年10月我院采用米索前列醇和米非司酮进行引产的122例中期妊娠
目的:针对儿科特点定位药学服务模式,提高临床药师认同度。方法:深入临床,参与医护人员的日常工作,进行用药干预和临床药学服务。结果:减少了不合理用药的发生率,增加了患儿用药
不动产投资信托基金(Real Estate Investment Trusts,REITs)是一种投资于专业管理的多元化房地产资产池的集合投资工具,不仅可以通过对稳定的现金流(租金收益)进行定期分配为
塔中地区奥陶系溶孔裂缝型储层非均质性严重,又受火成岩影响,其预测难度大,地震属性蕴含丰富的缝洞发育带及其分布特征的信息,由于属性种类很多,单因子判别存在片面性,而多属性人工