论文部分内容阅读
在线评论包含许多关于商品及消费者的潜在内容,通过挖掘其中文本核心信息,能够有效帮助消费者接收商品各方面的优缺点以更快的做出消费决策,以及提供商家商品需要改进的建议和分析消费者对商品的关注点。在线评论数据本身是文本数据,从文本数据中抽取有用的知识是文本挖掘的任务。文本挖掘需要将非结构化的数据转为可用的结构化数据,同时应用模型对文本进行建模,故其本身是一个交叉学科,它涉及语言学、统计学、计算机等知识领域。 本文主要通过对文本的挖掘技术,抽取在线评论的特征词,并训练相应的分类模型对文本评论进行情感分析,最后应用实际在线评论文本并依此分析该商品的评分情况,提供给消费者和商家一定产品建议。 文本挖掘在很早就有学者进行研究,最开始是使用密集人工劳动的方式进行文本分析挖掘。而随着这几年互联网的发展,文本数据的不断积累后,许多商家意识到文本数据的价值。同时,新技术的不断发展,如机器学习、统计学习在近二十年的快速发展下,为文本挖掘转为计算机自动化过程成为可能。当前,机器学习已成为文本挖掘的主流方法。故而,在本论文中,将使用机器学习方法对在线评论进行文本挖掘。 在这几年来,智能手机产品层出不穷,产品更新换代频繁,每个手机系列基本一年出一次新。对于消费者而言,这增加了选择合适产品的难度;对厂商而言,竞争增加。在线评论可以提供很多关于产品特性的信息,最泛的如手机好不好,具体的有关于手机某个性能的,如摄像功能很清晰或模糊。本文针对手机数据,挖掘对手机评论的各项产品特性评价信息,并对消费者和厂商提供一定建议。 在具体的手机在线评论挖掘中,包括两个步骤,一是对商品评论对象的挖掘,这归类于对方面词(aspect)、情感词的挖掘;第二步是对商品评论对象的情感倾向分析。第一步传统上使用TF-IDF等特征抽取方法,本篇文章将采用LDA主题模型、word2vec、聚类以及TF-IDF等特征抽取方法对方面词及情感词进行抽取及聚类。抽取特征词、形成词集后,将文本情感分析问题转为分类问题,以前面抽取的特征词作为变量应用三个分类模型。三个模型分别为Logistic、随机森林、Xgboost,其中Logistic模型效果最好,同时应用了前面抽取的特征词作为变量提升了模型效果。最后将Logistic模型应用在具体商品的文本评论上,分析得到最后的评分与实际相符。