基于BiLSTM的中文电子病历知识图谱构建及实现

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:xiaoxiaoshixisheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医疗领域相关技术的迅猛发展,人们对于医疗健康问题的关注日益增加。一方面,互联网上在线医疗健康网站越来越多,人们的就医问诊方式也越来越多。随着电子化医疗健康数据的暴增,医务人员用来记录患者信息和疾病诊断结果的方式已经从传统的纸质版病历转变为现在的电子版病历,科研人员正在寻求合适的方法来使用这些电子版的医疗健康数据。另一方面,电子病历属于非结构化数据,而且没有统一的标注语料和标注规范,结合其独特的文本特点和结构特点去构建医疗语料已经成为了医疗领域科研的难点。所以对于传统领域的实体识别和关系抽取的模型方法很难应用在电子病历中,这对医疗领域的自然语言处理任务带来了巨大的挑战。为了克服这些困难,知识图谱的构建及实现为医疗知识的存储和管理提供了一种合适的解决方案。本论文设计了一种基于深度学习的知识图谱的构建及实现,对医疗电子病历的文本进行命名实体识别和关系抽取,再使用图数据库存储医疗知识并构建知识图谱。论文的主要内容如下:(1)在医疗命名实体识别的方法中,本论文设计了BiLSTM-CRF模型用于提取特征,利用小样本标注数据集来训练实体识别模型,提取电子病历的语言特征和结构特征,再不断地扩增标注数据集,反复迭代不断地优化模型。其中双向长短时记忆神经网络模型解决了传统的循环神经网络模型的梯度消失问题,并且通过“遗忘门”、“输入门”和“输出门”的控制,解决了RNN模型的长期依赖问题。同时,通过CRF模型克服了基于有向图模型的最大熵马尔可夫模型和其他马尔可夫模型的基本限制。(2)针对实体之间关系抽取的特征选择问题,本论文设计了BiLSTM-Attention模型,将BiLSTM层后加入Attention层用于实体之间的关系分类。Attention层通过模型训练生成句子级的权重向量,模型测试时把Attention层的输入向量与权重向量相乘,把词级的特征向量转化为句子级的特征向量,由此来减少特征提取过程中的信息冗余和信息丢失的问题。(3)把抽取的医疗命名实体和实体之间的关系用属性图模型表示出来,再存储在图数据库中,图数据库使用非结构化的方式来存储关联关系复杂且关联深度大的数据,能够实现高效的关系查询。本论文旨在通过上述内容的研究,设计并实现了针对非结构化医疗文本的知识图谱的构建及实现,通过深度学习的方法提升医疗知识图谱的构建过程中的语义理解能力,从医疗命名实体识别、关系抽取和知识图谱的可视化等部分进行了详细的阐述。我们希望这些成果能够进一步应用到更广泛的医学任务上,由此来进一步推动自然语言处理中对知识的抽取和表示等工作在医学领域的研究和发展。
其他文献
<正>在秀美的庐陵大地,有一所备受当地百姓赞誉的名校:她位于绮丽的赣江之滨,拥有百年历史;吉安第一个中共地下党支部从这里诞生,众多优秀人才从这里走向全国。她便是享誉井
期刊
如今移动智能终端的应用越来越广泛,很多重要的文件和数据都以电子文档的形式储存在设备上,便捷的同时也带来了很多安全问题。目前,移动智能终端的安全市场上已经出现了一些文件加密软件,不过这些加密软件以基于用户态的加密机制为主,安全系数不高并且操作过程繁琐。本文采用的加密技术从Y AFFS2文件系统层对NAND Flash上的文件进行加解密,实现chunk级别的透明加解密。当使用者在打开或编辑指定文件时,
利用基因枪法将含有水稻巯基蛋白酶抑制剂(Oryzacystatin,OC)基因烟草叶绿体表达载体和含有苏云金芽孢杆菌晶体毒蛋白基因(Bt cry IAc)烟草叶绿体表达载体,共转化烟草叶绿体,
2015年11月,习近平总书记在中央财经领导小组会议上提出,要在适度扩大总需求的同时,着力加强供给侧结构性改革。在国家推动产业结构升级和经济新常态背景下,特别是“十三五”
耳聋是一种最常见的人类感觉系统缺陷,70%的遗传性耳聋属于非综合征型听力缺损.据估计非综合征型遗传性耳聋基因总数在100个以上,迄今已经有大约80个基因座被绘制于人类染色
土地耕作对农业生产有着重要的作用,犁体作为翻耕作业的核心部件,其结构性能的好坏直接影响作业质量以及能量消耗的大小。铧式犁也一直朝着高速作业的方向发展,当拖拉机在8km/h10km/h的速度条件下作业,既能发挥拖拉机燃油的经济性效益,又能达到良好的作业质量,但犁体耕作阻力大,能耗高也是一直以来所存在的问题。为此,本文为优化犁体结构,减小耕作阻力,借助于离散元法和田间试验展开对犁体作业过程的研究,具体