基于情感分析和特征过滤的主题提取方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:flowerofwind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网已经渗入到我们的日常生活中,互联网服务APP已然成为新时代的生活网络工具之一.人们进行选购商品时,经常翻看商品的评论来对这个商品作出购买判断,并且这些文本评论是消费者的直观感受,同时这些评论也提供了一个为平台了解客户的途径,快速挖掘文本评论的信息并且转化为生产力是亟待解决的问题.本文基于服务APP文本短评数据,探索适合短文本的主题挖掘方法.本文简单介绍了中文文本的预处理技术、文本特征的提取技术和不平衡数据处理技术,主要任务是探索快速且准确的文本情感分析的方法和精确提取主题的模型.并将情感分析和特征筛选融入到主题模型中,提出一种基于LDA模型的主题提取方法.本文的主要研究内容和工作如下:探索和选择适合短评数据的不平衡数据处理技术,用重抽样和欠采样技术进行处理并对比结果.从基于机器学习模型的情感分析和基于深度学习的情感分析两个角度展开,探索针对不平衡数据表现优异的情感分析模型.机器学习模型选用支持向量机和梯度提升决策树做实验,并用网格搜索和交叉验证调参.深度学习选用的是浅层网络fastText.用加权F1评估三个模型,实验证明,在处理不平衡数据方面fastText模型优于其他两个模型,并且指明了原因.在主题提取任务中,提出一种基于LDA模型针对短文本和不平衡数据的方法,先进行情感分析,将情感极性的标签加入主题提取模型中,再进行特征筛选,剔除公共属性特征,按类别进行短文本主题提取,效果较原模型显著,该方法具有实际应用价值.
其他文献
生物多样性是一个综合的具有复杂相互关系的概念,研究内容极其多种多样。不同生态系统关键种(Keyston species)的确定及其生态作用与经济开发的研究是生物多样性研究的主要方向之一。本文从柽
以乌山铜钼矿采区作为研究对象,应用数字化矿山管理理念,整合建立地质基础数据和采矿生产管控两大部分及相关10个业务模块,实现了从地质到采矿、从公司的生产计划到采剥施工
<正>在多元利益主体激烈竞争的市场经济体制下,深入推进中央企业反腐倡廉建设,是一项长期而艰巨的任务,也是中央企业纪检监察组织肩负的重大政治责任。近年来,中国远洋运输(
<正>张爱玲小说中的爱情多被人称为不完满的爱情而这种不完满的感觉更多地属于小说中的女主人公男主人公们好像都应该是不完满的制造者。他们仗着有点家底,玩女人于股掌之间,
随着中国与东盟各国经贸往来的日益加强,税收竞争已成为各国经济发展过程中不容忽视的问题。因此,有必要研究各国税收制度的差异,消除有害税收竞争,促进各国的经济合作。本文
《恩施土家族苗族自治州民族文化遗产保护条例》(以下简称《条例》)在全国三十个自治州中开立法先河,对于本州的非物质文化遗产保护起到了关键作用。但同时从立法学的角度来
石油供给安全是确保国家经济社会顺利发展的重要基础。近年来,我国国内石油产量不能满足需要,进口量不断增加,石油供给安全出现了一些新问题。我国应提高石油利用效率,增加对
目的:探讨高尿酸血症(hyperuricemia,HUA)的危险因素,为有效控制血尿酸(serum uric acid,SUA)提供依据。方法:2015年1月至12月每3个月从上海市4家医院的体检人群中筛选一批SU
澳大利亚作家理查德&#183;弗拉纳根2014年布克奖获奖小说《奥之细道》契合了福柯笔下三种塑造主体的模式:知识塑造、权力塑造、伦理塑造。不同于普通战争小说聚焦战争进程,《奥