论文部分内容阅读
随着B2C商务模式的蓬勃发展和网络购物的流行。网络评论数量飞速增长,信息内容越来越庞杂,导致客户评论中的有用信息难以被获取。因此,迫切需要一种有效的手段对各种大量评论数据进行整理,以形式化的方式将数据的统计结果展现给消费者。网络产品评论的意见挖掘技术正是在这样的应用需求环境下产生并迅速发展起来的。意见挖掘(Opinion Mining)是数据挖掘的一个重要的研究方向,它基于数据挖掘和文本挖掘技术,同时又具备一定的文本理解和倾向性分析的能力。评价对象抽取和情感倾向性分析是意见挖掘的两个核心任务。本文对这两个核心任务的方法进行了深入研究,并以产品评论作为研究对象,将分析任务分为评价对象抽取、评价对象关联对识别和情感倾向性分析三个部分,将产品的各个组成部分和各个属性作为特征,分析并统计产品的每个特征的褒义和贬义评价数量,并最终展示给用户。本文的工作主要包括以下四个方面:(1)在评价对象抽取方面,本文提出了一种基于模式匹配的抽取方法,本方法首先通过大量样本统计,获得种子规则集,以抽取有效评价句,继而通过句法结构组合以及词性距离相关性算法来抽取评价对象。种子规则和评价对象被存入相应的模式库。同时,本文采用半监督学习方法与动态替换来进行规则的学习与评价对象的扩充训练。这种方法使得抽取的评价对象在准确率和召回率上都有很大的提高。(2)提出了句法树结点泛化组合与模式相似度匹配相结合的方法。本文使用模式匹配的方法抽取评价对象关联对。精确的模式匹配在用于句法树这种结构时,匹配难度很大,导致最终抽取结果召回率不高。本文首先将句法树结点进行泛化组合,然后使用相似度算法进行模式匹配。实验证明,本文的方法结果优于精确匹配,也优于没有进行句法树结点泛化组合的情况。(3)在情感倾向性分析过程中,将拆分判别引入到情感词典匹配的方法中。由于评价词是由句法树结点泛化组合后的词,对于在评价词典中未找到的评价词,以其分词后的词作为最小单位再次在评价词典中查找,并采用线性加权的方式对整个评价词的倾向性进行判别。实验证明,这种方法可以有效地减少情感倾向性误判的情况,使得情感倾向性结果具有更高的准确率。(4)本文设计并实现了一个通用的产品评论意见挖掘系统,实现了从采集互联网产品评论、产品特征抽取、情感倾向性分析到以人性化的形式展示结果于一体的集成环境。本系统主要由数据处理平台和用户可视化平台构成。包括网络产品评论的采集、评价对象关联对的识别、情感倾向性分析以及产品特征倾向性展示等模块。