基于层叠条件随机场的电子病历命名实体识别

被引量 : 0次 | 上传用户:a381697182
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
适当的模型选取与有效的特征设计对命名实体的识别效率有着重要的影响。电子病历文本中,命名实体内部嵌套现象普遍、结构复杂,且由于其领域的独特性使得在一般领域中应用效果较好的实体识别模型也难以直接移植。此外,当前的命名实体识别模型所采用的特征一般为字符、词性等较为基本的底层特征,缺少近似于人类识别的高层特征,如语义特征。通过对隐马尔科夫模型(HMM)及最大熵马尔科夫模型(MEMMs)的相关描述引出了条件随机场模型(CRFs)。CRFs模型的线性链结构使得它能够添加任意特征,继承了MEMMs的优点;此外,CRFs模型只需要考虑当前已经出现的观测状态特征,没有严格的独立性要求,克服了HMM存在的不足;且其求解的是全局最优解,很好地解决了MEMMs的标记偏置问题,为命名实体识别提供了一个特征灵活、全局最优的标注框架。因此,选择CRFs模型为基础模型,并针对电子病历文本中实体内部嵌套现象普遍、结构复杂的问题,设计了层叠的CRFs模型对疾病名称与临床症状两类命名实体进行识别,主要工作内容如下:(1)建立了层叠的CRFs模型框架。将复杂的电子病历实体识别任务分成两个相对简单、相互关联的子层。首先,用第一层CRFs模型识别身体部位和基本疾病名称两类实体;然后,将识别结果传递到第二层CRFs模型,用于疾病名称和临床症状两类复杂实体的识别。这一过程实现了有效特征信息的传递,降低了任务的复杂度。识别效果优于单层的CRFs模型。(2)针对层叠的模型框架,结合命名实体的结构特点有针对性的自定义了两个特征:实体特征与融合特征。首先用第一层CRFs模型的输出结果作为实体特征,而融合特征是由实体特征与词性特征所组成的。自定义特征在语义层面上体现了命名实体的内部结构规律,降低了信息冗余,减少了计算量,实现了对具有嵌套结构的复杂实体的有效识别。识别效果优于使用普通特征组合的层叠CRFs模型。同时,通过实验结果还发现本文模型可以识别出训练样本中未出现的命名实体,为语料库中新词的识别提供了可能。(3)选用90份手动标注的电子病历(30份骨科,60份心脑血管科),随机抽取20份骨科病历与40份心脑血管科病历用于训练,余下的30份病历用于测试。通过对特征参数对比实验得到了最优结果,最优参数组为:第一层模型上下文窗口长度为3,第二层模型上下文窗口长度设置为7;标记颗粒度为字粒度;边界特征编码格式选用BIOES编码格式。在最优特征参数下得到整体F值可达97.64%,准确率可达97.89%,召回率可达97.38%。整体F值指标较使用普通的特征组合形式的模型算法高9.5%,较单层的CRFs模型提高了5.6%。验证了结合自定义特征的层叠CRFs模型对电子病历中命名实体识别任务的有效性。
其他文献
目的随着社会经济的发展及人口的不断老龄化,中枢神经系统疾病的风险因素如高血压、糖尿病、外伤等因素逐年增加,中枢神经系统病变的发病率表现出逐年上升的态势,CNS疾病具有致
抗菌脂肽是由枯草芽孢杆菌(Bacillus subtilis)、淀粉液化芽孢杆菌(Bacillusamyloliquefaciens)以及纳豆菌(Bacillus natto)等为代表的芽孢杆菌产生的一系列脂肽类物质(通常
背景目前国内外学者对糖尿病周围神经病变发病机制研究较多,但是对糖尿病患者中枢神经性病变的特征和机制研究较少。1922年曾报道了与糖尿病(diabetes mellitus,DM)相关的认知
研究目的本研究通过对浙江省前三期全科医生骨干师资培训的效果进行评价,探索影响培训效果的相关因素,总结培训经验,为继续完善全科医生师资培训项目及师资队伍的建设提供新
内蒙古地区因其特殊的地理位置和自然环境条件,在进入文明时期后,农耕文化与游牧文化不断在此碰撞、交流。到秦汉时期,该区域成为中原王朝与北方游牧民族主要争夺的地区。秦
近年来,开发安全和高效的化学储氢材料替代传统的化石燃料引起了人们广泛的研究兴趣。水合肼(N2H4H2O)在213-392K内是无色液体、储氢量高达8.0wt%、易于储存,而且它的催化分解
大力推动土地流转、发展农民专业合作社是推动农业规模经营和实现农业经济发展的重要动力,但目前两项工作的开展都遇到瓶颈,本研究主要通过文献调查法和案例法分别分析了全国
氧化镉(CdO)是属于II-VI族的一种直接窄带隙n型半导体氧化物,在常温下具有立方NaCl晶体结构。CdO薄膜本身具有大量的本征点缺陷,如氧空位(Vo)和镉间隙原子(Cdi)等缺陷,它们作为
目的了解老年阴茎癌术后患者的出院准备度,并探讨其影响因素。方法采用一般资料调查表及出院准备度量表中文版对在我科行阴茎癌根治术并且年龄≥65岁的76例阴茎癌术后患者进
纳米压印技术是美国华裔科学家的Stephen Y. Chou教授于1995年提出的一种复制加工纳米尺度图案的技术。因其具有产品分辨率高,工艺灵活,加工周期短等优点而受到广泛关注与应