基于文本聚类和语料库的信誉维度发现研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:dabing_12130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的主流在线零售网站普遍采用了一些简单的在线信誉系统来试图解决网络交易中信任缺失的问题,虽然起到了一定作用,但大多存在着不同商品共用同一评价维度、信誉评价模型维度区分度不高的情况,不能准确表达用户的真实选择意愿。针对上述问题,本文从用户的文本评论本身出发,使用客观的聚类方法发掘客户的真实感受,从定性的客户评论研究在线信誉系统,以期能够更加准确地给出用户所关注的信誉评价维度。本文在回顾前人的相关研究之后,采用文本聚类分析的方法对客户评论内容进行了分析。本研究编写了Asp.net程序抓取原始数据,使用Visual C++,Java,Matlab等语言对数据进行了分析、聚类。经过抓取文本评论数据,分词,生成特征项集合,编码标注,确定词义相似度计算方法,机器聚类,对聚类簇进行分析等步骤,得出了一个更加合理的信誉评价维度。其中,根据研究的具体情况,本文对TFIDF处理的具体步骤做出了改进,把词义相似度应用于聚类分析,并且在DBSCAN算法中加入了对聚类簇进行TFIDF过滤的内容。经过对原始的信誉评价维度和聚类分析得出的信誉评价维度进行对比,本文发现原有的信誉评价模型确实遗漏了一些比较重要的评价维度,而且有些评价维度不够全面、清晰,而使用聚类分析的方法分析文本评论数据,可以从用户评论中找出用户真正关心的信誉维度。研究结果证明,聚类分析做为一种新的信誉维度确立方法,可以尽量减少人为地干预,避免主观影响干扰分析结果,确保能够从用户评论本身出发,科学地、合理地得出客观的信誉评价维度。
其他文献
一、 分类读词,概述课文  1. 小朋友们,今天这节课,咱们继续走进这个有趣的童话故事——(读题)  2. 这些词宝宝你们还认识吗,现在我们来跟它们打个招呼吧!  第一排词语:一座荒岛、一起玩、一朵云(注意“一”的读音)  第二排词语:孤零零、梦见、天空、连忙、小象(注意后鼻音)  第三排词语:种呀种、高兴极了、不停地说(注意轻声)  第四排词语:小树苗、绿叶成阴、漫山遍野、这儿(注意翘舌音)  
期刊
一、 复习导入  1. 今天,我们继续学习第14课——(生齐读课题)通过上节课的学习,你知道课题中的“我”是指谁?(小骆驼)  2. 小骆驼一开始是不是就感到自豪的呢?(不是)它一开始是感到——(委屈)  3. 小骆驼为什么感到委屈?小红马觉得小骆驼哪些地方长得难看?  二、 感受沙漠  1. 知道了小骆驼的心事,为了不让自己的孩子感到委屈,骆驼妈妈决定要带小骆驼去沙漠里走一趟。  2.同学们,你
期刊
起源于19世纪的志愿服务事业,是人类社会文明发展到一定能够阶段的产物,在西方国家得到多了迅速的发展。伴随着30多年的改革开放和社会进步,志愿服务事业在中国有了深厚的历史基础和广泛的社会需求,促使志愿服务事业在中国得到长足发展,在社会服务领域发挥着越来越重要的作用。在中国,志愿服务事业作为一项高尚、文明的社会行为,在促进社会进步、维护社会稳定、促进社会精神文明建设和构建和谐社会中发挥了积极作用。但是
我国正处于高速经济发展时期,在发展的过程中不可避免的消耗大量能源,其增长速度逐年递增,能源紧缺问题成为了影响我国经济发展的重要问题。为实现我国实现可持续发展战略方针,合