论文部分内容阅读
适当的模型选取与有效的特征设计对命名实体的识别效率有着重要的影响。电子病历文本中,命名实体内部嵌套现象普遍、结构复杂,且由于其领域的独特性使得在一般领域中应用效果较好的实体识别模型也难以直接移植。此外,当前的命名实体识别模型所采用的特征一般为字符、词性等较为基本的底层特征,缺少近似于人类识别的高层特征,如语义特征。通过对隐马尔科夫模型(HMM)及最大熵马尔科夫模型(MEMMs)的相关描述引出了条件随机场模型(CRFs)。CRFs模型的线性链结构使得它能够添加任意特征,继承了MEMMs的优点;此外,CRFs模型只需要考虑当前已经出现的观测状态特征,没有严格的独立性要求,克服了HMM存在的不足;且其求解的是全局最优解,很好地解决了MEMMs的标记偏置问题,为命名实体识别提供了一个特征灵活、全局最优的标注框架。因此,选择CRFs模型为基础模型,并针对电子病历文本中实体内部嵌套现象普遍、结构复杂的问题,设计了层叠的CRFs模型对疾病名称与临床症状两类命名实体进行识别,主要工作内容如下:(1)建立了层叠的CRFs模型框架。将复杂的电子病历实体识别任务分成两个相对简单、相互关联的子层。首先,用第一层CRFs模型识别身体部位和基本疾病名称两类实体;然后,将识别结果传递到第二层CRFs模型,用于疾病名称和临床症状两类复杂实体的识别。这一过程实现了有效特征信息的传递,降低了任务的复杂度。识别效果优于单层的CRFs模型。(2)针对层叠的模型框架,结合命名实体的结构特点有针对性的自定义了两个特征:实体特征与融合特征。首先用第一层CRFs模型的输出结果作为实体特征,而融合特征是由实体特征与词性特征所组成的。自定义特征在语义层面上体现了命名实体的内部结构规律,降低了信息冗余,减少了计算量,实现了对具有嵌套结构的复杂实体的有效识别。识别效果优于使用普通特征组合的层叠CRFs模型。同时,通过实验结果还发现本文模型可以识别出训练样本中未出现的命名实体,为语料库中新词的识别提供了可能。(3)选用90份手动标注的电子病历(30份骨科,60份心脑血管科),随机抽取20份骨科病历与40份心脑血管科病历用于训练,余下的30份病历用于测试。通过对特征参数对比实验得到了最优结果,最优参数组为:第一层模型上下文窗口长度为3,第二层模型上下文窗口长度设置为7;标记颗粒度为字粒度;边界特征编码格式选用BIOES编码格式。在最优特征参数下得到整体F值可达97.64%,准确率可达97.89%,召回率可达97.38%。整体F值指标较使用普通的特征组合形式的模型算法高9.5%,较单层的CRFs模型提高了5.6%。验证了结合自定义特征的层叠CRFs模型对电子病历中命名实体识别任务的有效性。