在线评论的观点要素情感和挖掘研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:ssl1987310624
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线评论包含许多关于商品及消费者的潜在内容,通过挖掘其中文本核心信息,能够有效帮助消费者接收商品各方面的优缺点以更快的做出消费决策,以及提供商家商品需要改进的建议和分析消费者对商品的关注点。在线评论数据本身是文本数据,从文本数据中抽取有用的知识是文本挖掘的任务。文本挖掘需要将非结构化的数据转为可用的结构化数据,同时应用模型对文本进行建模,故其本身是一个交叉学科,它涉及语言学、统计学、计算机等知识领域。  本文主要通过对文本的挖掘技术,抽取在线评论的特征词,并训练相应的分类模型对文本评论进行情感分析,最后应用实际在线评论文本并依此分析该商品的评分情况,提供给消费者和商家一定产品建议。  文本挖掘在很早就有学者进行研究,最开始是使用密集人工劳动的方式进行文本分析挖掘。而随着这几年互联网的发展,文本数据的不断积累后,许多商家意识到文本数据的价值。同时,新技术的不断发展,如机器学习、统计学习在近二十年的快速发展下,为文本挖掘转为计算机自动化过程成为可能。当前,机器学习已成为文本挖掘的主流方法。故而,在本论文中,将使用机器学习方法对在线评论进行文本挖掘。  在这几年来,智能手机产品层出不穷,产品更新换代频繁,每个手机系列基本一年出一次新。对于消费者而言,这增加了选择合适产品的难度;对厂商而言,竞争增加。在线评论可以提供很多关于产品特性的信息,最泛的如手机好不好,具体的有关于手机某个性能的,如摄像功能很清晰或模糊。本文针对手机数据,挖掘对手机评论的各项产品特性评价信息,并对消费者和厂商提供一定建议。  在具体的手机在线评论挖掘中,包括两个步骤,一是对商品评论对象的挖掘,这归类于对方面词(aspect)、情感词的挖掘;第二步是对商品评论对象的情感倾向分析。第一步传统上使用TF-IDF等特征抽取方法,本篇文章将采用LDA主题模型、word2vec、聚类以及TF-IDF等特征抽取方法对方面词及情感词进行抽取及聚类。抽取特征词、形成词集后,将文本情感分析问题转为分类问题,以前面抽取的特征词作为变量应用三个分类模型。三个模型分别为Logistic、随机森林、Xgboost,其中Logistic模型效果最好,同时应用了前面抽取的特征词作为变量提升了模型效果。最后将Logistic模型应用在具体商品的文本评论上,分析得到最后的评分与实际相符。
其他文献
国际结算业务是中国商业银行目前主要的一项中间业务.掌握国际结算业务的机理、控制国际结算业务的风险,是做好国际结算业务的关键.中国商业银行必须借鉴国际先进的管理经验,
新世纪,伴随着中国加入世界贸易组织,随着金融业逐步对外放开,银行业的竞争更为激烈.为了迎接竞争,把中国商业银行建设成世界一流的银行,必须采取坚决措施,解决商业银行特别