基于BERT-BLSTM-CRF模型的中文命名实体识别研究

来源 :安庆师范大学 | 被引量 : 6次 | 上传用户:zhe0731
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别(Named Entity Recognition,NER)是自然语言文本数据处理工作中的一项基础且至关重要的环节,其任务为识别出待处理文本中各个代表具体实际意义的实体。NER是问答系统和文本分类等应用的基石,也是事件抽取和关系抽取等高层任务的关键。NER的准确度将直接影响后续工作的效果。识别出文本中地名、人名和机构名等专有名词是中文NER的主要任务。完成NER任务面临的首要困难是传统的识别技术严重依赖于人工特征提取与专业领域知识,因此消耗大量的人力与时间。其次,基于神经网络模型的中文命名实体识别方法在模型训练过程中,字向量表示过程存在向量表征过于单一化的问题,无法很好的处理字的多义性特征。本文针对以上问题处理中文字符级别的命名实体识别工作,主要任务如下:(一)传统的NER方法学习长距离依赖的能力较弱,并且要联合外部知识和大量人工参与来提取和处理特征,针对这一问题,本文引入目前比较受欢迎的深度学习序列标注模型——BLSTM-CRF模型作为基准模型,此模型首先将待识别字符输入双向LSTM模型,获得每个字符相应的标签。这些标签之间具有较强的依赖关系,使用链接在双向LSTM后的CRF层来学习标签之间的依赖关系,最后得到全局最优句子级别的标签序列。基于BLSTM-CRF模型的中文命名实体识别方法经过实验验证,能够有效的提高中文命名实体识别效果。(二)基于神经网络模型的中文命名实体识别方法在模型训练过程中,字向量表示过程存在向量表征过于单一化的问题,无法很好的处理字的多义性特征。针对这一问题提出一种基于BERT-BLSTM-CRF模型的中文命名实体识别方法,该方法首先使用BERT(Bidirectional Encoder Representations from Transformers,BERT)预训练语言模型根据字的上下文信息来丰富字的语义向量,然后将输出的字向量序列输入到BLSTM-CRF模型进行训练。实验结果表明,此方法在中文命名实体识别任务上其正确率、召回率和F1值分别取得了94.80%、95.44%和95.12%的成绩,相较于其他传统方法效果显著。
其他文献
近年来,国际方面不确定性、不稳定性因素增多,全球金融市场波动加大,国内方面经济增速趋缓,金融监管趋严,互联网金融日渐势强,金融业对外开放政策逐步落地见效,外资银行享受
动脉粥样硬化(Atherosclerosis,AS)是一种以大中型动脉血管壁脂质积累为特征的慢性炎症性病变。脂质代谢的紊乱导致脂质在血管内膜的积累,尤其是低密度脂蛋白(low-density li
<正>近年来,无论是加快结构调整、改革发展的实践,还是"5.12"抗震救灾及灾后重建的磨炼,我们深深感到:国有企业党的思想政治工作优势、组织优势和群众工作优势是其他任何组织
电针“三叉神经带”(位于双脚拇趾靠近第二趾的一侧,沿底部成带状分布)治疗三叉神经痛186例,疗程10~30d,显效78例,有效96例,总有效率94%。提示本穴有疏通经络,清热止痛的功效。
在纺织行业中,含水率对于纺织品性能来说是一项非常重要的参数,与纺织品的生产环节中的各项工艺的稳定性关系极其密切。因此,研究非接触、无损、实时性、测量精度高,能应用到
新高考方案所倡导的育人理念和选考政策对高中生物学教学提出了新的要求,作业的设置作为教学的重要组成环节,必须密切结合高考新政。教师应以生物学核心素养为出发点,尊重学