关于酒店评论的中文短文本情感分类研究

来源 :青岛大学 | 被引量 : 0次 | 上传用户:poloya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感分类作为一种特殊的文本分类问题,研究主要集中在中文分词,文本表示以及特征提取等方面。近年来研究人员针对上述问题做出了大量的研究并取得了不俗成绩,但是仍然有不少问题需要解决。比如针对中文分词,研究者在新词发现、未登录词识别等方面提出很多有效的方法,但是分词的同时也导致虚词表达的情感信息丢失,目前还没有好的解决办法;Word2vec生成的词向量虽然包含了词间语义关联信息,但是缺少对词情感信息的表达,如何将情感信息加入到词向量中是当前重要的研究内容;要去除文本中存的与主题无关的噪声,传统的特征选择方法在这里并不适用,如何有效去噪需要进一步研究等。基于此本文在前人研究的基础上做了以下几项研究工作:一、改进分词效果:现有的分词方法对于虚词的处理并不适用于情感分类的研究,因为不带情感的虚词与实词的组合单元也可以表达情感倾向,分词将这组合单元拆分开会造成这部分情感信息的损失。针对这个问题,本文使用“结巴分词”做为基本的分词工具,借鉴N-gram语言模型的特点,以知网HowNet情感词典为基础,从酒店领域的评论语料中训练抽取常见的组合单元来构建自定义分词词典。以自定义分词词典作为补充再次对文本进行分词。二、构建情感词向量:word2vec从大规模语料库中挖掘词间潜在的语义关联并生成词向量,但是词向量并没有包含词的情感信息。针对这个问题,本文假设所有词都带有情感信息,并且分布在正、负两个情感空间中。基于此提出了一种情感权值计算方法,通过情感权值对原始的词向量进行加权修正,获得情感词向量。三、提出属性匹配去噪算法:针对如何有效去除文本中存在的与主题无关的噪声,本文分析了噪声的形式,提出一种属性匹配去噪算法。该算法首先基于LDA主题模型抽取主题词来构建属性词典,再由属性词典对文本进行切片匹配,将无匹配片段视为噪声予以删除,从而完成对文本的去噪。四、对比实验:本文设计4个实验分别对前述三项改进方案和算法进行对比验证,实验以jieba分词工具进行分词,Word2vec训练原始词向量,以LSTM模型进行分类。实验结果显示,加入自定义分词词典将情感分类的准确率从87.15%提升到88.15%;在改进分词的基础上,构建情感词向量将情感分类的准确率从88.15%提升到92.05%;进一步再加入属性匹配算法,情感分类的准确率从92.05%提升到92.55%。实验结果验证了相应改进方法及算法的有效性。
其他文献
目前,我国铁路建设目前正面临一个巨大的发展时期,铁路客运站的面貌也焕然一新。由过去所承担的铁路旅客运输单一功能转变为与多种交通方式衔接的综合换乘单元。特别是大型客
新时期,在党中央的高度重视和正确指导下,通过高校党组织和党务工作人员的积极努力,我国大学生党建工作取得了重大的成果。但是,随着世界经济全球化和我国社会主义市场经济建
计算机科学技术的突飞猛进使得数字电路信号处理技术优势更为凸显,各种有关数字电路信号转换处理方法模式也不断被开发应用电路逻辑、器件集成中并发挥了重要功效,从二十世纪
近年来随着煤炭产业的飞速发展,能源开发与水资源需求的矛盾日益加剧,煤矿区地下水的利用量也在不断的加大。在正确认识地下水资源的基础上,实行合理的保护利用,已成为当代地
目的:动脉硬化是产生心脑血管事件,如动脉粥样硬化,中风和心血管疾病的一个重要因素。大量研究已经证实,长期有规律的有氧运动如,走路,慢跑,自行车,长跑和游泳等可降低动脉硬
通用串行总线(Universal Serial BUS ,USB)己经成为计算机必备的接口,各种计算机电子消费产品也逐渐配置了性能优越的USB接口,而RS-232产品还大量存在,为实现通信,开发USB转R
持续集成是极限编程12个基本原则之一,正在被越来越多的团队所采用。软件项目管理涉及到九大知识领域,贯穿于软件过程的始终,目的是为了让软件项目的整个软件生命周期(从分析
在计算机网络实验教学中,引入NS2构建网络仿真环境,能有效地缓解院校网络实验室建设的压力,创新了实验教学方法和手段。本文介绍了NS2仿真技术特点和NS2仿真机制与过程,通过
冒泡排序算法是高校C语言教学的重点和难点,传统的教学方法效果并不佳;探讨了一个利用多媒体教学手段,结合双向思维法,口诀教学法的教学过程设计,使学生更好得掌握冒泡排序算
针对传统的深基坑结构选型评价方法存在的问题,应用统计学理论并遵循"安全、经济、合理"的原则,选取了10个实测指标作为影响深基坑支护方案选型的判别因子,建立深基坑支护结