基于多维度特征评论分类的研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:LJX22766966
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子商务交易规模日益上升,用户和商品交互数据激增,用户和商家则通过评论得到商品的反馈信息并进行买卖决策。传统的评论分类基于词袋或者TF-IDF特征,没有考虑词语的语义、语法以及词语顺序等信息,同时没有考虑用户和评论本身的特征,模型分类准确率低、扩展性差。因此本文调研文本表示、文本分类以及评论分类的相关技术和方法,提出并实现了一种新的基于多维度特征的评论分类模型MDF-CC。该模型基于非文本特征建立随机森林概率模型,基于文本特征建立fasttext概率模型,通过模型线性融合,得到基于多维度特征的评论分类模型MDF-CC。利用采集自京东的评论数据,通过实验与基于传统TF-IDF统计方法的评论分类模型、fasttext评论分类模型做了性能比较分析,实验结果表明本文提出的MDF-CC模型准确性更高且具有更好的可扩展性。具体研究内容如下:1)研究文本表示的主要方法以及文本分类主要算法,分析每种技术优缺点。基于传统TF-IDF统计方法提取评论文本特征,基于随机森林和SVM算法建立评论分类模型,两种模型的F1值分别约为79%和80%;2)实现一种基于fasttext的快速评论分类模型F-CC。该模型考虑词语的语义、语法以及顺序信息,基于词向量网络训练建立文本表示与分类模型。F-CC评论分类方法F1值约为88%,分类效果优于基于传统的TF-IDF特征评论分类方法;3)提出并实现一种基于多维度特征评论分类模型MDF-CC。该模型可视化非文本特征与评论极性关系,基于非文本特征建立随机森林概率模型,基于文本特征建立fasttext概率模型,最后进行模型线性融合。经过实验验证,多维度的评论分类模型F1值约为90%,验证了本文提出的MDF-CC模型的准确性和扩展性;4)提出并实现一种基于词向量相似度匹配的评论方面词抽取算法,通过评论方面词扩展以及平均相似度匹配,最终判断评论评价的是物流、服务、价格和质量的哪一个方面,从而获得商品在方面词的好评率和差评率。
其他文献
手写符号识别技术是人机交互领域的一个重要问题,并在最近几年得到了快速发展。其应用领域覆盖面很广泛,涉及到民用和军用。如在电子教学板书过程中,可以在线识别数字和公式;
阅读能力对学生的良性成长和发展意义重大。在落实小学语文教学实践活动中,教师需要抓住这一重要的教学板块,坚持以学生为中心,培养学生良好的阅读能力和阅读行为习惯,在理解
目的探究呼吸内科重症患者采用应急强化护理的应用效果。方法选择2016年1月至2017年10月呼吸内科重症患者80例为研究对象,根据数字随机方式将其分为对照组与观察组,对照组给