论文部分内容阅读
随着互联网的普及,新闻信息的传播方式逐渐转为线上传播。新闻文本是一种非结构化文本,包含丰富的人物关系信息,如何从这种非结构化文本中抽取出人物关系是自然语言处理领域的一个研究热点。目前关系抽取的方法主要分为流水线方法与联合学习方法,前者先识别出句中的人物实体对然后再对人物实体对的关系进行分类,后者则同时抽取实体并分类实体对的关系。本文采用流水线的方法来设计新闻文本中人物关系抽取模型,模型主要分为人名识别模型和关系抽取模型。在人名识别部分中,本文将注意力机制引入BiLSTM-CRF实体识别模型构建BiLSTM-Att-CRF人名识别模型来解决传统模型对句子关键特征捕获能力的不足。在关系抽取部分中,本文采用远程监督方法构建数据集的方式来解决中文领域高质量语料缺乏的问题。但在远程监督构建数据集的过程中,不可避免的会同时引入假阳性噪声。为了克服这个问题,本文引入生成对抗网络来对数据集进行句子级别的降噪,对数据集中的假阳性噪声直接滤除,用去噪后的数据集训练BiLSTM-PCNN关系抽取模型。然而理论上对抗网络不可能滤除所有的噪声,所以在此基础上本文将包含同一实体对的句子构成一个包,并引入TF-IDF关系指示词发现算法对包中包含关系指示词的句子赋予更大的权重从而抑制剩余的噪声。本文先在MSRA新闻语料上进行人名识别的实验,来对比BiLSTM-Att-CRF模型与BiLSTM-CRF模型的性能,实验表明BiLSTM-Att-CRF模型优于BiLSTMCRF模型且在召回率方面提高了1.18%。然后本文在用远程监督方法构建的数据集上进行关系抽取实验,用人工验证的方式来验证对抗网络的去噪效果,实验结果表明去噪后的模型的平均准确率比未去噪的模型提升了5.1%。最后本文对关系指示词加权进行实验验证,实验结果表明关系指示词加权对噪声的抑制是有效的。