论文部分内容阅读
近几年,网络评论数据量呈指数级增长。为了从这些评论数据中快速获取有价值信息,学者们开始对这些数据进行观点挖掘,观点挖掘即对带有情感倾向的句子进行情感分析。按照对评论文本挖掘层次不同,观点挖掘技术分为三个等级,即篇章级、句子级和方面级。对网络评论数据进行方面级观点挖掘,能帮助商家和消费者获取评价对象各个方面的细节信息。论文针对现有的方面级观点挖掘技术存在的主要问题,从方面级观点信息挖掘和方面级情感分类两部分进行分析和改进。首先,针对传统的无监督学习方法在抽取网络评论数据方面级观点信息时,主要基于词频统计原理,因此容易丢失隐含词,降低观点信息抽取效果的问题,论文提出一个新的算法WMAB(Word2vec based MAB)。该方法基于MAB(Multi-Aspect Bootstrapping)算法思想,融合Word2vec词向量间的语义信息,将词向量间语义相似度和Bootstrapping相结合,通过计算候选观点词的方面级重要度分值进而筛选更加精准的观点词。WMAB算法可以有效克服传统方法主要基于词频统计思想的缺陷,从而提高网络评论方面级观点词挖掘的准确率。其次,针对简单的词向量拼接而成的文本特征矩阵,方面级特征提取不充分,关键信息不明确等问题,提出一种融合方面级权值的文本特征矩阵构建方法。方面级权值融合观点词重要度分值score_i(w)和属性类权重两个因素。该方法将评论中各个评价方面对应的观点词向量按照不同的方面级权值加以突出,增大了评论文本的方面级差异性,提高了有监督学习算法对方面级情感分类的准确率。论文采用多粒度卷积神经网络Multi-CNN对上述观点加以验证,且针对Multi-CNN池化层的最大池化函数丢失数据严重的现象,提出一种融合最大值和剩余信息的池化方法,进一步提高Multi-CNN对网络评论数据方面级情感分类的效果。最后,分别进行两组实验。第一组实验用来验证融合Word2vec词向量间语义信息的WMAB算法对方面级观点信息挖掘的有效性。第二组实验用来验证融合方面级权值的文本特征矩阵能够提高Multi-CNN的方面级情感分类效果,同时验证改进池化层的Multi-CNN的有效性。