论文部分内容阅读
中医学是中国古代医学的瑰宝,是历代医家思想、文化以及智慧的结晶。中医古籍是中医学发展的主要知识载体,记载了中华民族几千年的医学知识以及实践经验,如《黄帝内经》、《伤寒论》、《金匮要略》等中医古籍文献承载了中医基础理论和临床方剂的核心知识,历经几千年的临床验证和发展,极具医学研究及临床价值。在人工智能和大数据技术时代,进行中医古籍文献知识的挖掘和利用是中医药学传承与创新发展的重要基础任务之一,但仍存在如下显著挑战:(1)中医古籍容量巨大,且都是以书籍的形式记载,数据以非结构化文本为主要形式,古籍数据如命名实体等的人工处理与提取耗时耗力。(2)古籍文献都是以文言文进行记录,文言文所用字词简练,与现代文在词汇和语义上存在较大不同,用于人工智能分析的标准数据集尤为缺乏,因此,给计算机方法从古籍文献进行自动抽取提供了较大障碍。(3)以临床诊疗辅助为目标,如何对中医古籍关系知识进行快速查询与应用也存在较大问题。针对以上问题,本文主要从以下三方面开展研究。1)基于深度神经网络的中医古籍命名实体识别研究。本文通过人工方式对古籍文献数据进行命名实体标注和审核,并形成了具有1179408样本的标准语料库,该语料库包含11种命名实体类型及1895210个实体,为开展面向中医古籍的命名实体抽取方法研究提供了重要数据基础;通过Word2Vec、ELMo、BERT不同方法构建词嵌入模型并作为输入通过BILSTM+CRF模型进行命名实体识别任务。最终实验结果中BERT+BILSTM+CRF模型获得了最好的实验效果,精确率达到83.07%,F1值达到83.25%。其中结果相对较差的模型Word2Vec+BILSTM+CRF精确率也达到了80.16%,F1值达到了80.34%,总体上在古籍实体抽取中获得了良好的实验结果。2)基于深度神经网络的中医古籍实体关系抽取研究。首先通过人工方式对古籍文献数据进行实体关系的标注和审核并形成标准语料库,最终从662本古籍文献中得到90705条关系数据。基于此关系抽取标准语料库,分别利用BERT+BILSTM+CRF的pipeline方法以及PCNN+ATT方法进行直接关系抽取。其中PCNN+ATT方法进行关系抽取得到63.25%的精确率以及63.57%的F1值。而相比之下,基于BERT+BILSTM+CRF进行命名实体识别再进行关系抽取的pipeline方法得到61.43%的精确率和61.99%的F1值。实验也验证了基于注意力机制的方法在关系抽取上取得相对好的效果。3)中医古籍知识图谱库构建与案例分析。采用Neo4j图形数据库进行中医古籍知识图谱库构建,将人工标注以及智能抽取审核的关系数据存储到知识图谱平台中,形成共计119380个实体以及164028条关系的中医古籍知识库。进一步,我们基于Neo4j搭建的前端可视化平台,为该知识图谱的查询和利用提供了便捷技术支持。