论文部分内容阅读
随着互联网成为中国网民购物的一个重要渠道,网络评论也充斥着每个购物平台,网络产品评论所提供的信息也影响着消费者的购物行为。由于网络产品评论的数据量非常巨大,并且其中掺杂着很多无意义的,甚至恶意的垃圾评论,对于用户来说浏览如此庞大数量的评论会浪费时间,且获取到的信息不一定完全真实可靠。分析目前各大主流购物网站的现状,发现目前网站普遍采用五分制的评分来直观展示消费者对产品的打分,这种评分和评论内容独立的情况导致用户不仅要看评分还要看评论内容才能确定评论所表达的准确信息。鉴于上述一系列的复杂现状,本文基于网络评论挖掘,并结合垃圾评论识别研究如何构建一个商品综合评分模型。本文研究的最终结果是构建一个商品综合评分模型,其中最主要的过程是评论内容的情感分析。评论内容情感分析中首先通过分词系统进行评论的预处理,利用Apriori算法和剪枝方法提取特征词。然后结合HowNet和《同义词词林》扩充极性词数量,并且参照《中文情感词汇本体库》对极性词进行情感强度的标注,完善极性词词典内容。最后利用隶属度方法提取特征-观点词对,并分析程度副词和否定词对观点词的影响,计算的评论内容情感值有效反应了评论者的情感。并且在评论内容情感分析的基础上,本文提出融合评论者行为和评论内容的垃圾评论识别方法,分析了进行垃圾识别的评论者行为和评论内容特征,并采用KNN分类器有效地对评论进行是否为垃圾评论的分类。最终的模型构建综合考虑评分、评论者专业能力、评论内容的情感值、评论归属(是否为垃圾评论)四个因素,模型有两部分组成:单条评论的评分模型、商品的评分模型。最后给出实验,实验数据来自数据堂提供的两款手机和一款笔记本的评论数据。本文分别对产品特征词提取、特征-观点词对提取、评论内容情感分析、垃圾评论识别和综合评分模型进行实验,并对结果进行分析,实验结果表明,本文在构建模型中提出的方法具有合理性和有效性。