基于主动学习与自我训练的产品评论情感分析方法的研究

来源 :东北师范大学 | 被引量 : 2次 | 上传用户:xrf1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展和广泛应用,网络上涌现出海量的文本信息,情感分析技术的兴起使我们有了对文本文档进行情感上处理和分析的一种便捷方法。产品评论作为情感分析研究领域重要且热门的一个研究方向,它可以通过对评论文本的处理有效提取出其中的意见信息,帮助商家对产品进行决策。在产品评论文本中,由于每个用户的需求、对产品的要求程度以及写作习惯都是不同的,这使评论文本中表达的信息十分复杂。尤其在书评和影评这类强调用户体验的评论中还会出现大量对影片导演、主演、特效、故事结构等方面的评价,这些评价在情感分析的过程中都会对分类效果产生很大的影响。在产品评论领域的研究中如果仅使用样本的数据信息,将会考虑许多客观描述,严重影响分类的准确性,因此如何对评论进行主观意见信息的提取是本文研究的首要问题。其次,为了获得较高的准确率,大多数研究都依赖于使用大量的标签信息来训练分类器,而现实生活中容易获取的大部分数据都是无标签或只包含少量标签的。因此,如何只提取有用的数据进行标记,用少量的已标记样本就能提高分类器的性能也是本文研究的主要目标之一。针对上述问题,本文的主要研究内容如下:1.综合文本的情感本体与数据信息,提出“主题—情感”特征提取算法。与传统机器学习方法只利用文本的数据信息不同,通过使用主题词来提取文本中意见词的方法,有效提取文本中的主观情感,并提高后续分类的准确度。2.提出一种基于主动学习与自我训练相结合的情感分类方法。在训练分类器的过程中,用主动学习策略与自我训练策略两种并行的样本选择策略实现对“有用”样本的提取,提取出的样本在进行人工标记后添加到种子训练集中,并以迭代的方式对分类器进行训练,使分类器利用尽可能少的已标记样本就获得较高的分类性能。通过在书籍评论、电子产品、厨房用具和影片评论四个类别产品评论数据集上进行实验,本文提出的分析方法的平均准确率可达到79.2%,其中最高准确率达到94.126%,平均标记量是23%。与传统的机器学习方法相比,在少用57%标签的情况下达到了更高的准确率。
其他文献
很多沉水植物可以利用HCO3-在岩溶碳汇效应中起作用。然而,不同沉水植物会采用不同的无机碳利用策略,同一沉水植物在不同的无机碳源下的无机碳利用策略也可能不同。本研究以
目的探讨重症肺炎患儿血清hsCRP、TNF-α、IL-6水平与血清CK、CKMB、cTnT的关系。方法选取重症肺炎和非感染性疾病幼儿各80例分别记为肺炎组和对照组,均为初诊患儿,均检测血
随着科技的进步,当今社会需要一种新的教育模式来适应时代的发展需要,创新创业教育应运而生。本文从创新创业的研究价值、构建创新创业教育评价体系的原则到创新创业评价体系
世界鲍鱼资源及进出口贸易宁波海洋渔业总公司张林楠鲍,俗名鲍鱼、海耳、将军帽等,系海产软体动物,其肉质细嫩、爽脆、柔滑、清香鲜美,是营养丰富的滋补品。具有祛病去疾,调节人体
在20世纪90年代中国气候观测数据和遥感土地利用动态观测数据的支持下,计算了中国20世纪90年代农田光温生产潜力的变化.结果表明:20世纪90年代的LUCC过程直接导致了中国农田
随着社会经济的快速发展,多媒体技术得到了长足的发展,并开始在教育领域得到普及和应用,从幼儿教育阶段至高等教育阶段,都开始应用多媒体技术,并在教育领域获得了良好的教学
目的:研究通莲Ⅰ号方及其拆方在不同浓度下对食管癌Eca109细胞形态和生长周期的调节作用;探讨该方抑制食管癌细胞增殖的机制。方法:将Eca109细胞以1×106个/皿密度接种于Φ10
《秘书实务》课程项目式教学所用的项目具有很强的现实性。本文主要探讨项目式教学在课程中的运用与实践?
从比较编辑和普通阅读者阅读目的的差异入手,分析编辑工作中阅读心态和阅读习惯容易出现的问题,探讨重塑编辑阅读习惯的重要性和方法,用编辑的要求指导阅读,提高文稿的编校质
本研究揭示了酞酸酯类增塑剂邻苯二甲酸二丁酯(DBP)和邻苯二甲酸二异辛酯(DEHP)在土壤中的持留动态、降解动力学特征及其对作物生长的影响。结果表明:试验温度越低,DBP,DEHP的持留性越强:DEHP在土壤中的