论文部分内容阅读
随着信息时代的发展,人们越来越倾向于在网上检索信息和获取问题答案。传统的搜索引擎针对用户检索的问题往往返回的是相关文档而非确切的答案,因此基于知识图谱的问答系统逐渐发展起来。命名实体识别(Named Entity Recognition,NER)作为构建知识图谱中基础而重要的一步而被广泛研究。而由于不同领域文本具有不同的特征和风格,使得领域NER的研究难度大大增加。近年来,神经网络在命名实体识别方面展现了巨大的应用前景,循环神经网络(Recurrent Neural Network,RNN)成为解决实体识别任务的一种卓越有效的方法,但其需要大量标签数据,而带标签数据的缺乏一直是一个难以解决的问题。本文在现有NER方法的基础上,主要解决当标签数据极少时领域NER的识别方法,基于循环神经网络RNN提出了一种改进的ERNN模型,同时结合样本迁移方法和协同训练策略,有效提高了领域NER的识别精度。立足于标签数据远远缺乏的情景,本文中主要的工作包括:(1)研究和分析现有概率统计模型和循环神经网络在NER任务上的效果,在ATIS(Airline Travel Information System)和中文文学语料这两个数据集上对模型进行对比实验,并使用不同规模大小的训练数据对模型进行监督学习。实验结果表明对于NER任务,RNN的效果要好于统计概率模型,最高提升达到了39.72%,同时证明了小规模数据集能达到高识别结果的可行性。(2)将RNN模型和统计概率模型应用于协同训练,同时对RNN的激活函数进行改进,并对比了改进前后的识别效果。实验表明新激活函数一定程度上提高了NER识别精度,同时,在训练数据远小于测试数据时通过对未标记数据的迭代也能达到很好的NER识别效果。(3)针对领域NER,对(2)中的神经网络做进一步改进,通过添加额外的汇合层和采用样本迁移,从两方面来实现对相似领域数据的充分利用。此外,本文提出了两种迁移策略。实验中使用不同的相似领域和不同迁移策略对模型进行预训练从而进行对比。相似领域数据采用人民日报和搜狗新闻语料,目标领域数据为高中政治领域数据。结果表明相比改进前,本文提出的ERNN模型有了2.06%的提升(F1分数从0.9212提升到了0.9402)。