论文部分内容阅读
电子商务交易规模日益上升,用户和商品交互数据激增,用户和商家则通过评论得到商品的反馈信息并进行买卖决策。传统的评论分类基于词袋或者TF-IDF特征,没有考虑词语的语义、语法以及词语顺序等信息,同时没有考虑用户和评论本身的特征,模型分类准确率低、扩展性差。因此本文调研文本表示、文本分类以及评论分类的相关技术和方法,提出并实现了一种新的基于多维度特征的评论分类模型MDF-CC。该模型基于非文本特征建立随机森林概率模型,基于文本特征建立fasttext概率模型,通过模型线性融合,得到基于多维度特征的评论分类模型MDF-CC。利用采集自京东的评论数据,通过实验与基于传统TF-IDF统计方法的评论分类模型、fasttext评论分类模型做了性能比较分析,实验结果表明本文提出的MDF-CC模型准确性更高且具有更好的可扩展性。具体研究内容如下:1)研究文本表示的主要方法以及文本分类主要算法,分析每种技术优缺点。基于传统TF-IDF统计方法提取评论文本特征,基于随机森林和SVM算法建立评论分类模型,两种模型的F1值分别约为79%和80%;2)实现一种基于fasttext的快速评论分类模型F-CC。该模型考虑词语的语义、语法以及顺序信息,基于词向量网络训练建立文本表示与分类模型。F-CC评论分类方法F1值约为88%,分类效果优于基于传统的TF-IDF特征评论分类方法;3)提出并实现一种基于多维度特征评论分类模型MDF-CC。该模型可视化非文本特征与评论极性关系,基于非文本特征建立随机森林概率模型,基于文本特征建立fasttext概率模型,最后进行模型线性融合。经过实验验证,多维度的评论分类模型F1值约为90%,验证了本文提出的MDF-CC模型的准确性和扩展性;4)提出并实现一种基于词向量相似度匹配的评论方面词抽取算法,通过评论方面词扩展以及平均相似度匹配,最终判断评论评价的是物流、服务、价格和质量的哪一个方面,从而获得商品在方面词的好评率和差评率。