论文部分内容阅读
随着信息时代的迅猛发展,随之而来的是爆发式增长的大数据问题。信息抽取是从大量非结构化的文本中抽取出有价值的结构化信息,而关系抽取作为其中最重要的子任务,主要用于抽取文本中实体之间的语义关系。关系抽取分为无监督关系抽取、半监督关系抽取、远监督关系抽取和全监督关系抽取四种,其中最有前景的是远监督关系抽取,通过启发式地对齐已知的知识库和非结构化文本集提供训练数据,既不用像全监督关系抽取那样需要大量人工标记数据,也不会像半监督关系抽取那样产生语义漂移问题,并且在准确率和召回率上远监督关系抽取也比无监督关系抽取的表现好。但是,使用远监督学习模型实现关系抽取存在如下问题:(1)噪音问题。远监督关系抽取中使用启发式对齐规则提供训练数据是基于假设:如果一个实体对有某种语义关系,则所有包含这个实体对的语句都表达了这种关系。然而该假设条件在某些情况下不总是成立。例如,某些语句并没有表达实体之间的任何语义关系,却被错误的认为是描述特定关系的语句,从而产生噪音关系标签。(2)特征稀疏问题。由于无法预先得知哪些特征对远监督关系抽取的影响更大,所以在进行特征提取时会得到多种文本特征,包括词法特征、语法特征等,但是在训练集中这些特征中的很大一部分只出现了一次。例如,对Freebase知识库和NYT’13文本集进行数据对齐后进行特征提取,会得到几千个特征,而每个实体对对应的这些特征中只有少数特征值为1,其余为0。针对上述远监督关系抽取存在的问题,本文的工作主要有以下几个方面:(1)将远监督关系抽取问题转化成低秩矩阵恢复问题,并选择鲁棒主成分分析模型实现远监督关系抽取。首先把数据整理成矩阵的形式,把待抽取的关系实例作为未知元素存储在矩阵的测试集中,为了解决特征稀疏问题,本文假设矩阵具有低秩性。然后将通过远监督学习所得的原始矩阵分为包含主要信息的低秩矩阵和具有稀疏特征的噪音矩阵。最后利用矩阵奇异值分解找出数据之间的相关性,并实现对未知元素的预测,即抽取出新的关系实例。(2)提出使用加权核范数的鲁棒主成分分析模型。传统的使用核范数的鲁棒主成分分析模型在求解时使用相同的阈值对奇异值矩阵进行收缩,忽略了奇异值的大小与所包含信息的重要性成正比的关系,影响了去噪效果。本文提出在鲁棒主成分分析模型中使用加权核范数替代核范数,即在求解过程中使用与奇异值成反比的阈值对奇异值矩阵进行收缩,从而减缓大奇异值的收缩速度,加快小奇异值的收缩速度,这样不仅保证了矩阵低秩性,还尽量保留了矩阵的重要信息。实验结果表明,基于加权核范数的鲁棒主成分分析模型提高了远监督关系抽取的准确率和去噪效果。