论文部分内容阅读
评价关系抽取是情感分析的基础任务,它旨在抽取网络评论文本句中的评价对象以及评价词。目前国内外已开展了许多相关研究,并取得了一定的研究成果。但是现有方法还存在评价对象与评价词之间关系度量不准确,忽略评价对象,评价词自身关联关系等问题,影响了最终抽取的精度。因此,本文针对这一问题,进行了以下三方面的工作:(1)针对现有研究工作在抽取评价对象与评价词关系时应用人工模板和规则的方式,对评价对象与评价词关系权重的度量不准确这一问题,提出了基于词对齐模型的评价对象与评价词抽取。该模型利用词对齐模型自动抽取评价对象与评价词搭配,并结合词间距离等特征来估计两者关系的强度,建立一张二分图,结合领域相关性度量,利用随机游走算法迭代计算候选评价对象与评价词的置信度。在COAE2011任务3的语料上进行实验验证,结果表明,该方法在电子产品,影视娱乐及金融证券三个领域的抽取结果较基准方法在F1值上都有一定程度上的提升。(2)针对基于词对齐模型的评价对象与评价词抽取仅利用评价对象与评价词的距离因素来计算关系权重,而忽略了评价对象与评价词以及自身之间的多层关系这一问题,提出了一种基于多层关系的评价对象与评价词抽取模型。同样,它首先利用词对齐模型自动抽取评价对象与评价词搭配,然后同时考虑评价对象与评价词的依存句法关系,评价对象,评价词自身的共现关系,建立情感关系图,利用随机游走方法计算候选评价对象与评价词的置信度。在数据集上的实验结果表明,该方法与基于词对齐模型方法(WAM_I)相比在评价对象抽取上F1值平均提高3%。(3)针对在依存句法分析时往往只适合于句子成分完整的文本,而对于一些口语化的句子或者包含语法错误的网络评论文本可能产生错误的问题,提出了一种结合CRF评论句子压缩的评价对象与评价词抽取模型。首先利用条件随机场CRF模型对评论句子进行压缩,保留句子的主要情感成分,然后将其融入基于多层关系的评价对象与评价词抽取模型用于实验。实验结果表明,该方法较现有方法在准确率,召回率和F1值上都有不同程度的提高。