【摘 要】
:
电子病历是医疗产业向信息化、智能化发展的重要组成部分。因为电子病历包含大量临床医学知识,其信息抽取成为构建医疗系统知识图谱的关键一步,其中实体识别和关系抽取是电子病历信息抽取中的重要部分。本文主要研究基于语义表示模型的中文电子病历实体识别和关系抽取方法。首先,本研究结合现有语料库构建方法及标准,对6671份经去隐私处理的中文电子病历进行了人工标注,构建了一定规模的中文电子病历关系抽取及命名实体识别
论文部分内容阅读
电子病历是医疗产业向信息化、智能化发展的重要组成部分。因为电子病历包含大量临床医学知识,其信息抽取成为构建医疗系统知识图谱的关键一步,其中实体识别和关系抽取是电子病历信息抽取中的重要部分。本文主要研究基于语义表示模型的中文电子病历实体识别和关系抽取方法。首先,本研究结合现有语料库构建方法及标准,对6671份经去隐私处理的中文电子病历进行了人工标注,构建了一定规模的中文电子病历关系抽取及命名实体识别语料库。其次,实现了基于分类的关系抽取方法,通过将关系抽取任务切分为命名实体识别和关系分类两个子任务,将输入层改为基于语义模型训练的动态词向量分别优化了Bi-LSTM CRF模型和CNN模型,并分析了实验结果。针对分类过程中丢失长距离关系依赖的情况,在池化层引入了注意力机制。改进后的命名实体识别和关系分类的F值分别达到92.84%和89.5%。将实体识别和关系抽取当作两个独立的任务串联进行信息抽取会导致一系列问题,例如没有考虑到两个子任务之间的相关性,导致关系抽取任务的结果严重依赖于实体抽取的结果,易产生大量冗余的实体,并且造成误差累积。因此本文针对基于联合抽取的端到端关系抽取模型进行了研究。该方法通过不同的数据标注策略,将关系抽取任务转化为序列标注任务。本文首先实现了LSTM-LSTM-Bias模型,为丰富输入层的语义表示,引入了基于语义模型训练的动态词向量,改进后的关系抽取模型的F值达到82.7%。最后,基于上述研究,本文设计并实现了支持大数据处理的中文电子病历信息抽取系统。系统分为存储端、接口层和服务端三个模块,采用MVC的架构设计。在存储端,存储体系采用了三级缓存的结构,其中包括Hbase分布式开源数据库,远程字典服务结合My SQL数据库和基于Hadoop分布式文件系统,同时进一步优化了HBase。在接口层,为实现大规模数据的更新、增删和查询工作,在RESTful的基础上形成了两种类型的网页服务,能够进行远程实时的信息调用和抽取。而服务端能够在Hadoop的基础上处理大数据并抽取信息,借助该系统能够及时高效的抽取电子病历数据信息。在自然语言处理模块中,使用了大规模非电子病历医学文本对语义表示模型进行了预训练,在其基础上通过迁移学习训练了基于语义表示模型的端到端联合抽取模型,并结合模型融合技术和相似度去重技术,在电子病历的实体识别和关系抽取方面取得了较好的效果。
其他文献
随着我国经济发展进入新时代,中小微企业正一步步成为发展我国社会生产力的中坚力量。新三板作为中小微企业重要的融资场所,其最主要的融资方式就是股权融资,因此新三板的定向增发受到了广泛关注。多数学者早期对新三板的研究主要围绕市场规则与制度建立方面,后期延伸到关于融资影响因素的实证研究,但对新三板定向增发的时机选择却少有涉及。此外,从定向增发时机选择的研究来看,研究对象大都局限在上市公司,缺乏以新三板挂牌
随着三维可视化技术的发展以及三维地震数据规模的增大,在地震勘探领域,三维地震数据的规模以及可视化算法的复杂度,使可视化技术的应用出现了新的挑战。三维地震数据体绘制
目的:研究半胱氨酸天冬氨酸特异性蛋白酶3(cysteine aspastic acid-specific protease3,Caspase3)、X连锁的抑制凋亡蛋白(X-linked inhibitor of apoptosis protein,XIAP)与妊娠期肝内胆汁淤积症(intrahepatic Cholestasis of Pregnancy,ICP)的关系,为ICP的预防、治疗、妊娠
随着纳米含能材料在国防、航空航天和工业生产等领域的广泛应用,其合成和燃烧特性的研究受到越来越多的关注。然而目前对于纳米颗粒合成方式和燃烧机理的研究尚不充分。本文
碳纤维增强聚丙烯复合材料(PP/CF)在汽车轻量化领域有很大的应用前景,然而低的冲击韧性限制了其应用范围。本文采用调控PP基体性质、CF界面改性和混杂有机纤维三种方法来实现PP
如今,中国与世界其他国家交流和沟通日益频繁,对口译人才(特别是同声传译人才)的需求越来越旺盛。同声传译作为口译活动的一项重要形式,在各种各样的国际会议和新闻发布会中得到了广泛的应用,并且发挥着极其重要的作用。同声传译是一项融合听力、记忆、信息处理以及语言重组为一体的口译活动,具有高负荷、高难度的特点。这项活动要求口译员同时协调好听辨和表达之间的关系,在相当有限的时间内同时处理大量信息。因此,同声传
随着现代机械设备在交通领域的智能化发展,其故障诊断技术面临着新的挑战。轴承作为高速列车走行部的一个重要组成部件,其故障的复杂性、不确定性导致对故障诊断的需求尤为突出。轴承运行在复杂条件下可能会发生复合故障,即同时发生两个或多个故障。传统的轴承故障诊断方法对故障特征提取有限,可能丢失有用的信息。深度学习技术的发展,解决了特征提取的问题,这为轨道交通等领域的现代机械的轴承故障诊断研究提供了一种新的思路
剩余寿命预测是保障产品使用安全、提高设备使用经济性的重要手段,滚动轴承作为机械设备的重要零部件,开展其剩余寿命预测研究具有重要的现实意义。然而滚动轴承寿命受制造工艺、材料一致性、运行工况条件等的耦合影响,导致其在使用中出现较大的个体差异性,这为寿命预测带来了困难。特别是在较小的产品全生命周期数据样本集条件下,通过机器学习来准确预测样本外同型号产品个体的使用寿命,是一个研究挑战。针对以上问题,本文首
植物内生菌与植物长期共生,可产生多种与宿主植物类似活性化合物,是目前寻找天然活性成分的重要资源。本实验以药用植物茵陈为目标,对其内生细菌进行分离纯化鉴定,从中筛选活性菌株,对发酵产物相关性质进行研究,分离纯化出次级代谢产物,并对产物进行活性测试。具体研究内容及结果如下:以茵陈为研究对象,采用组织分离法,经多次分离纯化从茵陈中筛选出52株内生细菌,通过形态学观察与16Sr DNA技术相结合的方法鉴定
2014年11月10日,中国证监会正式批复“沪港通”成为第一个互联互通试点。2014年11月17日,沪港通正式开通。作为互联互通政策的首个试点,沪港通是我国资本市场开放的重要一环。自沪港通开通以来,诸多学者从沪港通对市场联动性、波动性、股价信息含量、企业融资约束、投资效率、经营绩效等角度研究沪港通政策的效果。已有文献多从“外部增益”角度,即境外资本增益和境外机构投资者治理角度,来阐述沪港通影响我国