论文部分内容阅读
事件抽取是自然语言处理领域的一个研究热点,在网络舆情监控、突发事件告警、情报收集等领域有广泛应用。事件抽取可以分为元事件抽取和主题事件抽取两大类,本文主要研究元事件抽取问题。本文针对现有元事件抽取方法大多面向特定领域,难以处理大规模开放语料的问题,研究了开放域环境下进行元事件抽取的关键技术,重点关注以下问题:1.词向量表征。词向量是事件抽取的基础工具,事件抽取的各个方面都会用到词向量技术。此外,词向量表征技术也可以用于对事件进行向量表征。2.开放域元事件向量表征。事件表征是事件抽取的前提,在进行事件检测和论元提取之前,首先需要对事件进行向量化表示。3.开放域元事件模板构建。事件抽取需要在事件模板的监督下进行。现有的事件模板集规模较小,不适用于开放域环境。本文考虑基于FrameNet框架构建开放域元事件模板,而实现FrameNet框架到事件模板的映射需要解决两个关键问题:事件句框架类型检测和事件句框架语义角色标注。本文围绕上述问题进行了深入研究,主要研究内容和创新点如下:1.针对基于神经网络的词向量模型训练复杂且耗时的问题,提出并实现了一种基于Zipf’s共生矩阵分解的词向量计算方法。该方法基于词频的Zipf’s分布定律大幅度减少了共生矩阵维度,方便了矩阵的存储和计算;方法简化了矩阵统计和项值变换,缩短了统计和变换的时间;采用Randomized SVD算法对共生矩阵进行降维,减少了计算开销;针对SVD无法提取特征非线性关系的问题,构建自编码器对得到的初始词向量进行非线性变换。该方法在词相似性和句向量生成两个任务中与Word2vec、Glove、Fasttext有相近的性能,且运行时间比Word2vec模型大幅缩短。2.针对大规模开放域元事件抽取中事件表征困难的问题,提出了一种基于Zipf’s共生矩阵分解的开放域元事件向量计算方法。针对传统方法将语句作为事件标签,容易导致“维度灾难”的问题,该方法从事件句中提取事件元组,并对事件元组进行抽象、剪枝和消歧,得到类型化的事件标签;针对传统无监督模型编码粒度过细的问题,利用Zipf’s共生矩阵分解方法计算事件向量的全局性表征。采用最近邻检测和事件检测两种任务对事件向量的性能进行测试。结果表明,基于Zipf’s共生矩阵分解得到的事件向量能够对事件之间的相似性和相关性信息进行全局性表征,避免编码粒度过细造成的语义偏移。3.针对传统框架类型检测方法只考虑词元上下文信息,难以进一步提升检测性能的问题,本文提出了一种同时考虑词元解释性信息的框架类型检测方法,并构建了三种基于BERT预训练网络的检测模型。在FrameNet框架类型检测实验中与传统模型进行了对比,实验结果表明,本文模型性能优于传统模型,同时,增加词元解释性信息能够有效提升模型的检测效果,实验结果证明了本文方法的有效性。4.针对框架元素种类过多,影响框架语义角色标注性能的问题,定义了FrameNet全局语义角色,并构建了框架元素到全局语义角色的映射表。针对BERT模型无法考虑词元信息和框架类型信息的问题,在BERT预训练网络的基础上,增加双向LSTM层以及CRF层,构建框架语义角色标注模型。该模型同时考虑上下文信息、词元信息以及框架类型信息,在FrameNet语义角色标注数据上的测试性能优于对照模型,证明了方法的有效性。