论文部分内容阅读
伴随着信息技术的突飞猛进以及移动互联网的快速普及,广大群众更乐于在互联网上发表自己的评论、分享自己的生活,这创造了互联网上海量、包含丰富情感信息的短文本语料库。对短文本进行情感分类早已经不仅是学术范围内的任务,生活中购物网站通过对消费评价信息进行分析,帮助消费者消除消费者和商家之间的信息不对称,使得消费者购买到满意的商品和享受到优质的服务。政府通过舆情分析系统,利用短文本分析技术引导舆论走向,保护民众利益、维持国家安全与稳定,成为新时代为人民服务的重要手段和途径。因此,面向短文本的情感分类研究有着重要的理论价值和现实意义。本文以“面向短文本的情感分类算法研究”为题展开研究,对当前国内外研究现状和主流算法进行了深入的介绍和分析。针对短文本缺乏丰富的上下文语义信息这一研究难点,从文本表示和分类模型两个方面,进行了以下研究:(1)分布式向量化模型Paragraph Vector是一种隐性语义模型,该模型训练出的向量的每一个维度的含义人们无法解释,且该模型的训练只运用了局部窗口的信息,无法对窗口之外甚至整个语料库的信息加以利用。针对以上问题,本文提出了一种面向短文本的词对主题句向量模型BTPV(Biterm Topic Paragraph vector),该模型将BTM(Biterm Topic Model)得出的全局半显性信息和Paragraph Vector训练过程中的局部隐性信息相融合来训练句向量。实验结果表明,与常见分布式表示模型相比较,基于该模型表示的短文本取得了更好的聚类效果,为研究短文本情感表示提供了技术支撑。(2)基于word2vec和LSTM的中文情感分类方法在训练过程中需要记忆上下文的词语间的关系,导致其效率低下,成本较高。针对这个问题,本文首先在第三章的BTPV模型的基础上提出了一种面向短文本情感分类的分布式表示模型BTSPV(Biterm Sentiment and Topic Paragraph Vector),该模型在训练过程中融合了情感信息,其次提出基于BTSPV和MLP的情感分类方法。实验结果表明,与基于word2vec和LSTM的方法相比,该方法的效率有很大的提升。达到了实际使用中要求的准确率和效率的相对平衡。本文针对短文本情感分类任务,围绕短文本缺乏丰富上下文语义信息的研究难点,开展了系统的研究,提出了面向短文本表示的分布式表示模型与情感分类算法,为短文本情感分类提供了新的技术支撑。