论文部分内容阅读
情感分类作为一种特殊的文本分类问题,研究主要集中在中文分词,文本表示以及特征提取等方面。近年来研究人员针对上述问题做出了大量的研究并取得了不俗成绩,但是仍然有不少问题需要解决。比如针对中文分词,研究者在新词发现、未登录词识别等方面提出很多有效的方法,但是分词的同时也导致虚词表达的情感信息丢失,目前还没有好的解决办法;Word2vec生成的词向量虽然包含了词间语义关联信息,但是缺少对词情感信息的表达,如何将情感信息加入到词向量中是当前重要的研究内容;要去除文本中存的与主题无关的噪声,传统的特征选择方法在这里并不适用,如何有效去噪需要进一步研究等。基于此本文在前人研究的基础上做了以下几项研究工作:一、改进分词效果:现有的分词方法对于虚词的处理并不适用于情感分类的研究,因为不带情感的虚词与实词的组合单元也可以表达情感倾向,分词将这组合单元拆分开会造成这部分情感信息的损失。针对这个问题,本文使用“结巴分词”做为基本的分词工具,借鉴N-gram语言模型的特点,以知网HowNet情感词典为基础,从酒店领域的评论语料中训练抽取常见的组合单元来构建自定义分词词典。以自定义分词词典作为补充再次对文本进行分词。二、构建情感词向量:word2vec从大规模语料库中挖掘词间潜在的语义关联并生成词向量,但是词向量并没有包含词的情感信息。针对这个问题,本文假设所有词都带有情感信息,并且分布在正、负两个情感空间中。基于此提出了一种情感权值计算方法,通过情感权值对原始的词向量进行加权修正,获得情感词向量。三、提出属性匹配去噪算法:针对如何有效去除文本中存在的与主题无关的噪声,本文分析了噪声的形式,提出一种属性匹配去噪算法。该算法首先基于LDA主题模型抽取主题词来构建属性词典,再由属性词典对文本进行切片匹配,将无匹配片段视为噪声予以删除,从而完成对文本的去噪。四、对比实验:本文设计4个实验分别对前述三项改进方案和算法进行对比验证,实验以jieba分词工具进行分词,Word2vec训练原始词向量,以LSTM模型进行分类。实验结果显示,加入自定义分词词典将情感分类的准确率从87.15%提升到88.15%;在改进分词的基础上,构建情感词向量将情感分类的准确率从88.15%提升到92.05%;进一步再加入属性匹配算法,情感分类的准确率从92.05%提升到92.55%。实验结果验证了相应改进方法及算法的有效性。