论文部分内容阅读
所谓文本命名体识别,也可简称实体识别,就是从一段文章或者一句话中,识别实体的边界并对实体进行分类的一个任务,属于自然语言处理的基础任务之一,它的效果可直接影响下游任务的表现,例如关系抽取,智能问答等,所以虽然基础,但是重要。普通的命名体识别任务是运用公开的大型语料数据集如维基百科、人民日报等进行人名、地名等常见的预定义实体类别的识别。同时这个任务也被应用于各个特定领域的具体场景,比如军事领域的武器装备命名体识别,医疗领域的电子病历实体识别等,上述此类可以称之为特定领域的命名体识别任务。因为特定领域的实体识别经常出现专业术语而导致实体的边界难以准确识别从而发生实体识别错误,或者出现较多实体嵌套和实体组合的情况由于语料较少训练不充分导致分类错误等。本文以医疗领域的电子病历为例,面对特定领域的数据特点和困难,构建了两个模型来解决特定领域的命名体识别问题,并且以具体的医疗电子病历数据为例进行具体的分析和模型预测。本文主要进行的工作和创新点为:1)本文提出的第一个算法模型是在LSTM-CRF模型的基础上进行改进使之能够更好的识别特定领域的专业词汇从而提高整体效果。对LSTM编码层进行改进加入Lattice结构,Lattice结构需要两个输入,一个是字向量,一个是以此字结尾构成的词语的词语向量,Lattice结构的作用就是把词语向量与字向量在LSTM解码层的记忆单元处进行加权整合,构建好自己的医疗词典提高分词精确度后用Word2Vec得到输入词向量,同时采用先进的预训练模型Bert得到输入字向量,分析Lattice实现复杂和效率低下的问题,借用Lattice的思想但是改进Lattice的结构,不在记忆单元处进行两种向量的整合而是在输入记忆单元之前采用基于Self-Attention的融合策略进行以此字结尾的词语向量集合的融合然后和字向量进行拼接,让其效率更高更易实现。做了5组不同的对比实验,发现该模型能够更好的识别并分类预定义的实体,交叉验证后F1值的结果总体优于其他的对比实验模型,提高1~3个点不等。2)因为发现了应用特定领域的词典进行分词后的分词信息对于识别实体边界的促进作用,本文提出的第二个模型借用了多任务学习的思想,多任务学习认为不同但是相似的多个任务联合训练过程中可以提取到共同特征从而来提升单一任务的效果,本文构建了NER和CWS协同对抗训练的多任务模型框架,设计的共享BILSTM模块用来提取共同的信息,并且在CWS任务的BILSTM解码层和特征共享层中加入多头Attention机制来提升表现。在对比实验中,NER(Name Entity Recognition,命名体识别任务)和CWS(Chinese Word Segmentation,中文分词任务)联合训练得到的结果优于单独的NER任务模型的效果。3)展望未来的可能的改进方向,可以考虑将生成模型和主动学习等方法应用到特定领域的标注语料获取和扩充上,同时也可以在如何增加多任务学习的任务数量上进行相应探索,或者在算力得到提升后选用更优秀的预训练模型等等,都是此任务未来可以改进的方向。