面向短文本的情感分类算法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:awii0813
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息技术的突飞猛进以及移动互联网的快速普及,广大群众更乐于在互联网上发表自己的评论、分享自己的生活,这创造了互联网上海量、包含丰富情感信息的短文本语料库。对短文本进行情感分类早已经不仅是学术范围内的任务,生活中购物网站通过对消费评价信息进行分析,帮助消费者消除消费者和商家之间的信息不对称,使得消费者购买到满意的商品和享受到优质的服务。政府通过舆情分析系统,利用短文本分析技术引导舆论走向,保护民众利益、维持国家安全与稳定,成为新时代为人民服务的重要手段和途径。因此,面向短文本的情感分类研究有着重要的理论价值和现实意义。本文以“面向短文本的情感分类算法研究”为题展开研究,对当前国内外研究现状和主流算法进行了深入的介绍和分析。针对短文本缺乏丰富的上下文语义信息这一研究难点,从文本表示和分类模型两个方面,进行了以下研究:(1)分布式向量化模型Paragraph Vector是一种隐性语义模型,该模型训练出的向量的每一个维度的含义人们无法解释,且该模型的训练只运用了局部窗口的信息,无法对窗口之外甚至整个语料库的信息加以利用。针对以上问题,本文提出了一种面向短文本的词对主题句向量模型BTPV(Biterm Topic Paragraph vector),该模型将BTM(Biterm Topic Model)得出的全局半显性信息和Paragraph Vector训练过程中的局部隐性信息相融合来训练句向量。实验结果表明,与常见分布式表示模型相比较,基于该模型表示的短文本取得了更好的聚类效果,为研究短文本情感表示提供了技术支撑。(2)基于word2vec和LSTM的中文情感分类方法在训练过程中需要记忆上下文的词语间的关系,导致其效率低下,成本较高。针对这个问题,本文首先在第三章的BTPV模型的基础上提出了一种面向短文本情感分类的分布式表示模型BTSPV(Biterm Sentiment and Topic Paragraph Vector),该模型在训练过程中融合了情感信息,其次提出基于BTSPV和MLP的情感分类方法。实验结果表明,与基于word2vec和LSTM的方法相比,该方法的效率有很大的提升。达到了实际使用中要求的准确率和效率的相对平衡。本文针对短文本情感分类任务,围绕短文本缺乏丰富上下文语义信息的研究难点,开展了系统的研究,提出了面向短文本表示的分布式表示模型与情感分类算法,为短文本情感分类提供了新的技术支撑。
其他文献
《兄弟》(上)自2005年出版以来,受到了读者以及文学评论家的颇多微词,文坛期待10年的余华新作没有像《活着》和《许三观卖血记》那样带来震撼。2006年3月中旬,《兄弟》(下)终
<正>定居意大利三年,没有当地文凭又语言不通的张洁(化名),终于找到了一份正式工作——在中国某跨境电商平台,专做跨境产品市场开拓。入行两个月,她就感受到行业内人心不稳:"
期刊
目的比较介入治疗与静脉溶栓治疗急诊中合并院前心脏骤停急性心肌梗死患者的疗效。方法选取2010年2月~2014年6月我院收治的合并院前心脏骤停急性心肌梗死患者70例为研究对象,
结直肠癌是常见的恶性肿瘤之一,转移是导致患者死亡的最重要的原因,也是结直肠癌术后复发的直接原因。结直肠癌的演进是多因素,多水平,多通路的复杂过程。因此,筛选其发生、
花木画在唐、宋、元时期得到充分发展,不仅在题材上由传统的牡丹、芍药、桃、杏等扩展到文人喜好的竹、梅、兰等,而且在风格技法上形成了精工设色、水墨写意、没骨晕染、水墨
吴江垂虹桥始建于北宋庆历八年(1048),曾被誉为“江南第一长桥”。历史上曾有数百位文人墨客为垂虹桥吟诗作画。解读历代文人雅士歌咏垂虹桥的诗词,如同翻开老照片,垂虹桥的
本文针对Gardon式热流传感器的测试误差,从理论推导和数值模拟两个方面,分析出Gardon式热流传感器产生测试误差的原因。同时,对理论推导和数值模拟计算分析得出的传感器输出
吴江以水和桥著名。清康熙《吴江县志》称当时吴江的桥梁“以数千计”。至清末,有名可查的桥有503座。据1935年统计,吴江共有桥1194座,其中唐桥2座、宋桥8座、元桥11座、明桥114
生育被认为是降低乳腺癌发病风险的保护因素,生育史对乳腺癌发病类型和预后转归的影响尚不明确。目前研究显示,生育不仅影响乳腺癌的发病情况,对乳腺癌的预后结局也有影响。
目的:通过体外实验研究维生素E琥珀酸酯(Vitamin E succinate,VES;α-tocopheryl succinate,α-TOS)对黑色素瘤细胞增殖、分化、细胞周期和相关蛋白表达以及黑色素小体改变的