基于神经网络的关系抽取模型研究

来源 :中国科学技术大学 | 被引量 : 4次 | 上传用户:hrqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,大量的非结构化文本散布在互联网的各个角落。实体关系抽取能够从非结构化的文本中抽取实体以及实体之间的语义关系,有效地将非结构化文本转化为机器易于处理的结构化文本。关系抽取属于实体关系抽取任务中的一个子任务,是实体关系抽取确定了文本中实体后的后续任务。本文主要研究基于监督学习的句子级别的二元关系抽取模型。近年来,随着深度学习的发展,关系抽取模型取得了较大的进展。然而,关系抽取模型在句子依存树的充分利用上、特殊关系的有效利用上以及是否能够识别关系的方向上依然存在一些需要解决的重要问题。本文对以上三个问题进行了探索和研究,将三方面的贡献总结如下:1.对句子依存树的充分利用进行研究,提出了基于树形自注意力的关系抽取模型。该模型首先利用长短时记忆网络获得句子的词序信息以及利用树形自注意力从句子的依存树中捕捉结构信息。其次,使用一个线性合并层将含有语序信息的向量和含有结构信息的向量进行融合,得到每个单词的最终的向量表示。再次,利用最大池化层获得句子向量和两个实体向量,将它们链接起来输入到前馈神经网络得到关系的向量表示。最后,将关系的向量输入到softmax层中进行关系预测。本章在两个公开的数据集上对所提模型进行了实验,并将所提模型与先进的关系抽取模型进行对比,实验结果表明了所提模型的有效性。特别地,拓展实验表明了该模型在数据量较小时也可以取得较好的性能,表明了所提模型具有数据高效性。2.对特殊关系的有效利用进行研究,提出了基于辅助学习的模型训练方法。该方法在模型学习阶段引入了针对特殊关系(记为no_relation)的辅助学习任务。辅助学习任务是一个二分类任务,该任务将特殊的关系视为负类,而将其余的语义关系视为正类。通过采用类别成本敏感的损失函数,辅助学习任务更多地关注负类no_relation。辅助学习任务联合主预测任务共同训练关系抽取模型,使得模型具有更好的泛化性能。最后,在两个公开数据集上通过八对基础模型(不使用辅助学习任务)与改进模型(使用辅助学习任务)的实验对比,验证了所提方法的有效性。3.对关系抽取模型是否能够识别关系的方向进行研究,提出了一个新的评估任务——关系方向识别。关系方向识别通过对比关系抽取模型在配对测试集上的预测结果的一致性或者差异性来评估模型在关系方向识别上的性能。通过三个新的评估指标:性能差、预测不变率和配对预测率,度量关系抽取模型在关系方向识别上的性能。通过在关系方向识别任务上对不同的关系抽取模型进行实验评估,结果显示:尽管这些关系抽取模型在传统指标上取得了相似的性能,但是它们在识别关系的方向上具有明显的差别,验证了所提任务的有效性。
其他文献
莫扎特《C大调第21钢琴协奏曲》K467这部作品,创作于1785年,是莫扎特创作晚期成熟的协奏曲代表作之一。由于钢琴在巴洛克时期并没有被分为主奏与协奏,只是与乐队进行合作的古
我国改革开放以来,从城市偏向到城乡统筹,释放了潜在生产力,提高了要素配置效率,但城市主导、乡村撂荒、城乡差距仍在扩大。山西作为资源型地区,既具有全国的共性问题,又面临