论文部分内容阅读
随着互联网的普及和在线购物所带来的便捷性,网络购物呈现出了前所未有的爆发式增长势头,导致购物网站上产生了大量的商品评论文本数据。利用自然语言文本处理中的情感分析技术,可以从这些海量的文本数据中获得有用的评价知识。情感分析可以获取评价对象的情感极性分类,从粒度上可包括三个层面:(1)文档级别的情感分析;(2)句子级别的情感分析;(3)特征级别的情感分析。文档级别和句子级别的情感分析可以获取评价对象的粗粒度情感极性,难以满足人们进一步了解更细致的商品部件及属性评价情况的要求。要获取商品局部部件及属性的情感极性分类知识,需要对商品评论进行特征级别的情感分析,即细粒度的情感分析,其核心任务是有效提取特征词和情感词以及发现它们之间的关联性。相对于粗粒度的情感分析,细粒度的情感分析任务更具有挑战性。商品评论是用自然语言表达的非结构化的文本数据,其语义关系和语法结构具有随意性,并且数据量非常庞大,给特征词和情感词的提取带来了极大的困难。需要综合运用自然语言理解及数据挖掘技术,在有效降低文本数据维度的基础上,才有可能实现细粒度的特征词和情感词挖掘。由于潜在狄利克雷分配(latent Dirichlet allocation, LDA)主题模型可以对文本数据进行降维,实现大规模文本的主题词提取,同时利用主题聚类功能来自动获取词语间的关联关系,LDA主题模型在特征词和情感词的提取研究中受到了极大的关注,并得到了广泛的应用。特征级别的情感分析需要更多地发现局部结构关系中的特征词和情感词,这些词语相对于全局特征词和全局情感词来说词频更低,并且它们之间的关系隐含在句子、短语等结构中,尤其在具有复杂词语语义关系的中文商品评论中,局部特征词和局部情感词的提取难度明显要高于全局特征词和全局情感词。现有LDA主题模型偏向于发现全局特征词和全局情感词,在主题-词语的概率分配过程中没有考虑词语间的语义关系,导致一些低频的、具有隐含语义关系的特征词和情感词提取的准确率和召回率不高,主要表现在:(1)难以提取低词频特征词和情感词。LDA主题模型偏向于发现高频的主题词,导致了词频相对较低的特征词和情感词的提取率不高。在中文商品评论中,经常会出现多个不同词语描述同一特征,其中低词频特征词在主题-词语概率分配中概率较低,往往被忽略;一些仅修饰同一类特征的专属情感词由于词频较低,也不容易被LDA识别。(2)难以发现低共现频率特征词和情感词的关系。LDA主题模型善于发现具有较高共现频率的词语关系,而难以发现一些真实存在的但低频共现的特征词-情感词匹配关系。在中文商品评论中,有些情感词只用来修饰某一个或某一类特征,这类情感词与特征词的共现关系容易被其他高频情感共现关系所湮没,使得LDA模型难以发现这类关系;同时LDA也很难提取一些仅包含情感词的无特征词语句子中的特征词-情感词隐含匹配关系。(3)全局特征词对局部特征词主题分配的干扰。由于LDA模型对高频全局特征词较敏感,容易将全局特征词以较高概率分配到不同主题下,而影响了其他相对低频的局部特征词的主题分配,造成高词频的全局特征词的重复提取而低词频的局部特征词却难以被LDA识别。(4)难以识别特征词和情感词之间的语义关系。LDA模型是词袋型概率生成模型,提取的词语关联性主要体现在文档级别的共现,难以更深入地理解词语之间的语义关联,从而可能将文档共现频率高但无语义关联的词语分配到同一主题,或将共现频率低但语义关联强的词语分配到不同主题,造成提取的主题词不能真实反映特征词和情感词之间的语义关系。为了解决上述问题,实现细粒度的特征词和情感词提取,需要有指导地进行主题词挖掘,即利用先验知识对主题模型进行约束,形成监督效应来提取符合挖掘目标的主题词。考虑到LDA模型的语义理解能力的欠缺,首先从语义关系的发现来探索词语间的关联性,然后利用关联性知识对主题模型形成约束机制,更多地发现特征词和情感词之间的隐含关系。引入词语之间的语义关系约束机制可以在保留LDA主题模型的大规模文本主题词提取功能的同时,提升主题模型的语义理解能力,提高识别局部词语间关联关系的能力,更多地提取细粒度的特征词和情感词。主要研究内容有:(1)中文商品评论语义关系的获取研究。结合中文商品评论文本的特点,从句法依存、词义理解和语境相关等多角度获取语义关系,并将语义关系转化为LDA模型容易识别和方便嵌入的方式,为主题模型的改进提供有效的语义约束先验知识。(2)语义关系在LDA模型中的嵌入机制研究。在保留LDA模型主题词提取的基础上,对语义约束知识如何嵌入到主题模型进行研究。在主题的概率分配关系中充分反映不同层级的语义隶属关系,并为提取符合语义要求的特征词和情感词提供指导,解决已有主题模型提取的主题词不能完全符合语义要求的问题。(3)语义关系对LDA模型的层级分配关系研究。由于语义关系的引入,LDA模型不同层次之间的分配关系将产生变化。在原有主题模型层级分配关系的基础上,加入语义先验知识来影响其概率分布关系,主要研究的层级分配关系包括:文档-情感、情感-主题和主题-词语的分配关系。(4)语义约束主题模型的构建研究。将语义约束知识引入到LDA模型,对LDA进行扩展的同时形成了弱监督效应。已有LDA模型的总体结构将产生变化,反映在层级的改变以及不同层级的隶属关系变化上。根据不同的语义任务提取需求,结合多种语义约束关系的获取及嵌入,在有效进行LDA模型扩展的基础上,对单独特征词提取、特征词和情感词同时提取以及情感极性分类三类模型的构建进行研究。本文的创新性工作主要体现在:(1)提出了商品评论文本的词语语义关系获取方法。针对中文商品评论的特点,从句法分析、词义理解和语境相关等多角度设计了特征词和情感词之间的语义关系发现规则,并考虑语义关系作为约束先验知识加入到LDA模型的方便性,获取的词语关系能够较好地反映中文商品评论中特征词-特征词、特征词-情感词和情感词-情感词之间的语义关联。(2)设计了语义关系对LDA主题模型的约束机制。包括两个方面:一是设计了语义关系约束下的主题-词语分配机制,实现主题下细粒度特征词和情感词的有效聚合和区分:二是设计了全局特征词主题分配约束机制,减少全局特征词对局部词语分配的干扰,尽可能多地发现局部特征词和局部情感词。语义约束可以指导LDA进行主题-词语的概率分配,影响主题下词语的聚合度和分离度,弥补LDA对于语义关系理解的不足。(3)构建了 4个带语义约束的LDA主题模型。对LDA模型进行了扩展,在语义先验知识的指导下进行细粒度主题词提取,提出了 WC-LDA、AC-LDA、SRC-LDA和SWS-LDA模型。在保留LDA主题词提取特点的基础上,对LDA结构进行了改进,利用词语间的语义关系知识来指导LDA进行主题词挖掘,使得词语分配更符合商品特征和情感词提取的语义需求,提高了隐含在句式结构中的低频特征词和情感词的识别率,同时增加了词语分配的主题聚类程度,有利于发现更多的细粒度特征和情感词以及它们之间的关联关系。