【摘 要】
:
本文的研究主题是建立一定的模型对Yelp网站上餐饮业评论中的虚假好评进行识别。由于虚假评论先验标记的缺失,给有监督学习造成了困难,而无监督学习稳定性又较差,本文希望尝
论文部分内容阅读
本文的研究主题是建立一定的模型对Yelp网站上餐饮业评论中的虚假好评进行识别。由于虚假评论先验标记的缺失,给有监督学习造成了困难,而无监督学习稳定性又较差,本文希望尝试在无标注数据集上建立拟先验标记的方式将无标注数据集转化为有标注数据集,将无监督学习转化为有监督学习,再进行最终模型的拟合。本文的研究目的是探索这种建立拟先验标记方法的可行性,以及采用本文中的交集方法所建立的拟先验标记的可信性。在拟先验标记的建立阶段,本文尝试通过情感极性分析(采用TF_IDF方法建立语料库,并结合LASSO方法建立Ordinal Logit模型)、聚类分析、文本词频分析的方法,将无监督学习和有监督学习的结果进行交互验证,在最小化第一类错误概率的前提下,建立拟先验虚假评论标注。在最终模型的拟合阶段,本文根据上述建立的标注进行有监督学习模型拟合,比较带随机项与不带随机项的广义线性模型与支持向量机方法,并在最小化第一类概率错误的目的下建立最优的最终模型。最终建立的模型在样本量为200的测试集上进行检验,发现本文所建立的模型可以最小化真实评论误判为虚假评论的概率,而虚假评论被识别出的概率大约为43%。
其他文献
随着新冠肺炎疫情的肆虐,举国上下乃至全世界都投入到这场战“疫”中,以习近平同志为核心的党中央领导全国人民奋勇抗击疫情,涌现出许多体现对人民大爱、为国家担当和为世界各国
在推进我国生态文明建设进程中,伴随着政府管制型这一环境治理模式出现了环境治理困境,党的十九大提出要构建新的环境治理体系。在新的环境治理体系中,特别强调要吸纳公民的
在组织环境日益复杂多变的背景下,不确定性和模糊性成为组织必须面对的难题,在传统管理思路有效性不断降低情形下,基于东西方文化优势整合而构建的和谐管理理论在采用设计性
<正> 西方经济从1980年开始走下坡路之后,1983年初稍有回升,经济增长率、物价指数、对外贸易量、就业率等经济指标在1983年上半年均有改善。难以预料的是,这次经济回升能持续
《〈长征〉节选》是苏教版八年级上册第一单元“长征之歌”中的一篇文本。作为初中六册书中唯一的电视文学剧本,该文本有着鲜明的独特性。电视剧本所要表现的是屏幕上能被观
感觉理论是列宁在《唯物主义和经验批判主义》中重点论述的一个问题,也是列宁反映论思想的基础和重要组成部分。近几年来,我国理论界对《唯批》中的反映论思想开展了激烈的争
目的:探讨新生儿期常见的遗传代谢性疾病临床特点及诊治经验。方法分析该科2例新生儿遗传代谢病资料,并结合近年来国内已报道的相同新生儿病例90例(其中甲基丙二酸血症70例,枫糖
多年来,计算机专业作为中等职业学校的热门专业,肩负着为国家经济建设培养大量实用型、技能型人才的历史重任。影视广告课程作为本专业的核心课程,它的前导课程为基础能力模
近年来,我国的各行各业得到了飞速的发展,致使各企业的管理阶层对于企业的投资风险管理意识也在不断加强,并且大部分企业均建立了抵御经济风险的内部控制系统,但是多数企业在