论文部分内容阅读
随着互联网的广泛使用和电子商务的迅猛发展,用户在购买和使用产品后会在互联网上发表对产品的评论,这些评论中包含了用户对产品性能、外观等方面的态度。越来越多的人在做出消费决策前喜欢先到互联网上参考用户对某产品的评论。但是互联网上的信息数量巨大,全部阅读这些评论来帮助做出决策十分困难,挖掘产品评论对于商家和潜在的消费者都有着重要的意义,所以评论挖掘是一个亟待研究的课题。本文利用关联规则CBA方法识别出频繁项作为产品特征候选集合,通过剪枝和相似度计算来调整候选产品特征集合,实现网络评论产品特征的识别。针对观点挖掘,本文构建了用于产品评论情感分类的特征领域情感词词典,同时提出一种适用于主语已知情况的观点挖掘算法RSBV,然后采用监督学习中的支持向量机分类方法对评论中涉及商品特征的观点进行分类研究。情感分类结束后,利用分类结果进行特征的优缺点汇总,形成优缺点的长、短摘要,并针对客户的特征要求,根据情感分类结果进行商品的推荐价值计算。最后对KDD2012中提出的代表性评论集挖掘算法进行研究,对其中的适用于大规模数据的迭代随机算法进行分析和改进,提出了一种新的代表性评论子集挖掘算法CLRS,该算法能在某一商品的所有评论中搜索一组综合性评论集,极大化代表所有评论的意义,从而进行信息反馈。本文以中文产品评论为主要研究对象,实现对评论中产品特征层面的观点进行挖掘和情感分析,利用本文提出的RSBV算法,并通过构建特征词词典和特征领域情感词词典,提高了观点挖掘的准确性。形成特征的长短摘要,使得信息简洁明了。设计了商品推荐价值函数,根据用户要求进行商品推荐价值计算,实现商品推荐功能。最后我们提出了CLRS算法进行代表性评论子集的挖掘,实验结果表明该算法的高效性和准确性。