论文部分内容阅读
随着互联网技术的成熟,各类依托于网络的电子平台得到很好的发展和普及,人们可以通过这样的网络媒体表达自己的观点和意见,其中蕴藏着大量信息,具有不可小觑的研究价值。产品评论信息作为用户产生文本的重要组成部分,如何快速、准确的挖掘其中包含的意见信息,已经成为自然语言处理(Natural Language Processing,NLP)相关领域的热点问题之一。本文面向产品评论,在机器学习框架下融合多种特征和知识探索汉语意见抽取方法,重点研究意见要素识别、意见关系抽取和动态极性分类问题。具体地,本文主要从以下三个方面展开研究:(1)条件随机场结合知识库的意见要素识别。意见要素分为显性意见要素和隐性意见要素两类,其中隐性属性识别一直被认为是意见要素识别的瓶颈问题。本文在条件随机场模型框架下,融合词形、词性、位置信息及上下文信息等特征进行显性意见要素的识别,取得了理想的实验结果;为了识别隐性意见要素,本文首先采用统计方法构建搭配知识库,然后在条件随机场框架下确定隐性属性位置,最后利用搭配知识库确定隐性属性。实验结果表明融合多种特征和知识有利于意见要素识别性能的提高,尤其是隐性意见要素识别。(2)基于支持向量机的意见关系抽取。意见关系分为产品品牌与产品属性构成的“Aspect-of”关系和产品属性与评价构成的“Aspect-Evaluation”关系两类,其中存在的一对多和多对一的复杂意见关系抽取一直被认为是关系抽取的瓶颈问题。本文认为复杂意见关系是由多个简单的意见关系构成的。为了抽取意见关系,本文将意见关系抽取问题形式化为一个分类问题进行处理,首先构造简单意见关系候选,然后在支持向量机框架下,融合词性、依存关系、距离信息融合等特征进行意见关系判别,进而构建一种基于支持向量机的意见关系抽取系统。实验结果表明了基于支持向量机的意见关系抽取方法的有效性。(3)基于动态极性词关联词词典的情感极性分类。本文以产品评论句中的产品属性为主体,将句子粒度下的情感极性分类问题转化为词粒度下的情感极性分类问题。特别地,动态极性词的情感极性分类是情感极性分类的瓶颈问题,针对该问题本文提出基于动态极性关联词词典的情感极性分类方法,为具有动态极性的情感词分别构造褒贬倾向的关联词词典,证明了基于动态极性关联词词典的情感极性分类方法的有效性。