论文部分内容阅读
命名实体识别(Named Entity Recognition,NER)是自然语言文本数据处理工作中的一项基础且至关重要的环节,其任务为识别出待处理文本中各个代表具体实际意义的实体。NER是问答系统和文本分类等应用的基石,也是事件抽取和关系抽取等高层任务的关键。NER的准确度将直接影响后续工作的效果。识别出文本中地名、人名和机构名等专有名词是中文NER的主要任务。完成NER任务面临的首要困难是传统的识别技术严重依赖于人工特征提取与专业领域知识,因此消耗大量的人力与时间。其次,基于神经网络模型的中文命名实体识别方法在模型训练过程中,字向量表示过程存在向量表征过于单一化的问题,无法很好的处理字的多义性特征。本文针对以上问题处理中文字符级别的命名实体识别工作,主要任务如下:(一)传统的NER方法学习长距离依赖的能力较弱,并且要联合外部知识和大量人工参与来提取和处理特征,针对这一问题,本文引入目前比较受欢迎的深度学习序列标注模型——BLSTM-CRF模型作为基准模型,此模型首先将待识别字符输入双向LSTM模型,获得每个字符相应的标签。这些标签之间具有较强的依赖关系,使用链接在双向LSTM后的CRF层来学习标签之间的依赖关系,最后得到全局最优句子级别的标签序列。基于BLSTM-CRF模型的中文命名实体识别方法经过实验验证,能够有效的提高中文命名实体识别效果。(二)基于神经网络模型的中文命名实体识别方法在模型训练过程中,字向量表示过程存在向量表征过于单一化的问题,无法很好的处理字的多义性特征。针对这一问题提出一种基于BERT-BLSTM-CRF模型的中文命名实体识别方法,该方法首先使用BERT(Bidirectional Encoder Representations from Transformers,BERT)预训练语言模型根据字的上下文信息来丰富字的语义向量,然后将输出的字向量序列输入到BLSTM-CRF模型进行训练。实验结果表明,此方法在中文命名实体识别任务上其正确率、召回率和F1值分别取得了94.80%、95.44%和95.12%的成绩,相较于其他传统方法效果显著。