基于WMAB和CNN的网络评论方面级情感分析

来源 :燕山大学 | 被引量 : 0次 | 上传用户:gege1232000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,网络评论数据量呈指数级增长。为了从这些评论数据中快速获取有价值信息,学者们开始对这些数据进行观点挖掘,观点挖掘即对带有情感倾向的句子进行情感分析。按照对评论文本挖掘层次不同,观点挖掘技术分为三个等级,即篇章级、句子级和方面级。对网络评论数据进行方面级观点挖掘,能帮助商家和消费者获取评价对象各个方面的细节信息。论文针对现有的方面级观点挖掘技术存在的主要问题,从方面级观点信息挖掘和方面级情感分类两部分进行分析和改进。首先,针对传统的无监督学习方法在抽取网络评论数据方面级观点信息时,主要基于词频统计原理,因此容易丢失隐含词,降低观点信息抽取效果的问题,论文提出一个新的算法WMAB(Word2vec based MAB)。该方法基于MAB(Multi-Aspect Bootstrapping)算法思想,融合Word2vec词向量间的语义信息,将词向量间语义相似度和Bootstrapping相结合,通过计算候选观点词的方面级重要度分值进而筛选更加精准的观点词。WMAB算法可以有效克服传统方法主要基于词频统计思想的缺陷,从而提高网络评论方面级观点词挖掘的准确率。其次,针对简单的词向量拼接而成的文本特征矩阵,方面级特征提取不充分,关键信息不明确等问题,提出一种融合方面级权值的文本特征矩阵构建方法。方面级权值融合观点词重要度分值score_i(w)和属性类权重两个因素。该方法将评论中各个评价方面对应的观点词向量按照不同的方面级权值加以突出,增大了评论文本的方面级差异性,提高了有监督学习算法对方面级情感分类的准确率。论文采用多粒度卷积神经网络Multi-CNN对上述观点加以验证,且针对Multi-CNN池化层的最大池化函数丢失数据严重的现象,提出一种融合最大值和剩余信息的池化方法,进一步提高Multi-CNN对网络评论数据方面级情感分类的效果。最后,分别进行两组实验。第一组实验用来验证融合Word2vec词向量间语义信息的WMAB算法对方面级观点信息挖掘的有效性。第二组实验用来验证融合方面级权值的文本特征矩阵能够提高Multi-CNN的方面级情感分类效果,同时验证改进池化层的Multi-CNN的有效性。
其他文献
高质量的AZO粉体对AZO薄膜的性能有决定性影响。本文采用一步溶剂热法和共沉淀法制备了 AZO粉体。通过一步溶剂热法制备AZO粉体时,锌源为二水合醋酸锌,铝源为九水合硝酸铝,沉淀剂为氢氧化钠,反应溶剂为乙二醇甲醚。研究了铝元素的掺入量,反应时间,反应温度,碱浓度和分散剂分子量对所制备的AZO粉体的电阻率的影响。通过荧光发射光谱分析AZO粉体中的缺陷并对粉体中的缺陷与粉体导电性之间的关系进行分析。共
信访制度作为一项极具中国特色的制度设计,自1951年创设以来,在民意表达、权利救济、矛盾化解、权力监督等方面发挥着举足轻重的作用,是保障社会和谐稳定的“安全阀”。近年
汽蚀是发生在热水泵中的一种常见的物理现象,其作用机理就是发生在汽水两相流中的一种激波效应。能量流密度很大,媒质的温度压力骤然升高,能使汽体分解、化舍、电离,使固体被击碎
MgxZn1-xO薄膜能在较宽的光学带隙范围内可调(3.37.8e V),用作MgZnO-TFT有源层时,MgZnO薄膜的禁带宽度大于Zn O的禁带宽度,能促进TFT在透明电子学的发展;作为紫外探测器时,MgZn