基于情感特征和BLSTM的短文本分类方法研究

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:sandland
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,自然语言处理随着机器学习和深度学习的发展取得长足进步。海量的短式评论大部分字数较少而数量庞大,加之更新速度及时,对这些海量数据进行短文本分类从中挖掘潜在价值成为当今大数据时代至关重要的一步,文本分类作为自然语言处理中热门的研究分支有着广袤的发展前景,短文本的数量和其增长速度的发展为短文本分类技术带来新的挑战。一方面短文本自身带有强烈的情感色彩容易被忽视,大多短文本分类模型中计算权重只考虑词频;另一方面,短文本篇幅短字数少,特征提取存在高维稀疏、容易在训练中丢失语义信息的问题。针对上述文本分类难点,本文着眼于短文本分类方法研究,以情感特征和深度学习为工具,从两个方面改进短文本分类模型,提出了一种基于情感特征的短文本分类模型,用于对酒店情感语料进行分类;提出了一种基与改进的BLSTM多粒度短文本分类模型,用于对NLPCC新闻标题进行分类。主要研究内容和创新点包括:提出了一种基于情感特征的短文本分类方法,构建特征权重值和情感值结合的模型捕捉短文本的情感信息,在保留词频的同时融入情感判断,相比于简单的词频判断,加大了情感强烈的特征词权重,提升了短文本特征选择效果,最后在不同分类器下进行分类,使用谭松波老师整理的酒店评论短文本进行试验,相比于传统模型本文提出的方法在准确率上有所提升。提出一种基于双向长短时记忆网络结合注意力机制的多粒度短文本分类方法,构建模型包括词嵌入层、词级长短时记忆网络层、句级长短时记忆网络层、注意力机制层、分类层,词级和句级的长短时记忆网络分别从词向量、句向量的层面提取上下文语义信息,注意力机制层对双向长短时记忆网络的输出向量加权求和,对重要程度不同的特征赋予不同的权重,在国际自然语言处理与中文计算会议新闻标题数据集上进行试验,与其他分类模型进行对比,多粒度分类模型能够有效提取词语句子的上下文语义信息,分类准确率更高。
其他文献
中美关系是当今世界复杂且重要的一对双边关系,且影响深远。网络空间的崛起加之重要战略、安全问题日益增强的外溢效应与彼此影响和相互联动,全球战略稳定问题(尤其是中美总体战略安全关系的稳定问题)面临诸多挑战。若得不到及时解决,则会滑向战略不稳定的深渊,造成难以想象的危害。中美总体战略安全关系稳定的维持需要从具体议题着手,网络空间的重要性使其成为解决当今时代系列问题的突破口。因此本文主要讨论中美在网络空间
数学学习的主要作用在于发展人的思维,培养学生的思维能力是数学教育的重要目标之一.众所周知,平面几何因其基本概念的抽象性和推理论证的严密性,历来是培养学生的几何直观和逻辑思维能力的最好载体.所以,成功的几何教学应以思维的深度发展为目标,围绕理性思维生长而展开.而在传统的教学模式中,学生的思维训练往往是不够的,学生很难在数学学习中,逐步成为既具独立性、批判性、创造性又具有合作精神的学习者.结合目前已有
随着线网规模及客运量的不断增大,北京地铁轨道线路在长期高负荷的使用下钢轨病害较为突出,对北京地铁的安全运营及养护维修管理带来了挑战。研究北京地铁钢轨修理决策优化技术,对提高北京地铁钢轨设备安全管理水平,控制北京地铁钢轨养护维修管理成本有着重要意义。本文通过分析国内外关于钢轨修理决策及近似动态规划方法的研究现状,针对城市轨道交通钢轨养护维修管理工作中存在的不足之处,构建了基于近似动态规划的北京地铁钢
近年来,随着全国多地建设用地使用权的到期,地方、中央陆续出台相应规定,但是正式的法律文件尚未颁布,具体规则和制度构建仍不明确。在当前关于建设用地使用权续期的方向与基本原则已经基本达成共识的背景下,本文试图从制度演进的历史中总结出建设用地使用权制度的产生原因和立法目的,分析建设用地使用权续期活动的性质、住宅建设用地和非住宅建设用地使用权续期的价值偏向,挖掘建设用地续期权利的正当性根源。并且,在对比分
埃及吹绵蚧Icerya aegyptiaca(Douglas)作为一种园林植物害虫,广泛分布于热带及亚热带地区,该虫食性杂,寄主植物达到59个科113个属,在二十世纪八十年代,该虫就被列为广州地区危险性园林害虫。澳洲吹绵蚧Icerya purchasi目前分布于全球的125个国家,主要集中在热带、亚热带地区,澳洲吹绵蚧寄主包含68科167属的植物,该虫食性很杂,在我国主要危害柑橘,上个世纪对南方柑
随着社会现代化进程地不断推进,社会对高素质综合性人才的需求愈发增加,其中口语交际能力便是人才选拔的重要标准。心理学认为小学阶段是学生语言习得的关键时期,且口语交际是语文教学的重要组成部分,应对小学阶段的语文口语交际的教学,教师应投入更多的关注。然而在一线教学中,口语交际教学仍处于语文教学的“边缘”。在社会对口语交际能力愈发重视的今天,小学语文教师如何在教学中把握学生的语言关键期,切实提高口语交际能
行人检测技术作为计算机视觉的重点研究课题之一,因其广泛的应用价值成为研究的热点。同时,由于行人自身的非刚性特点和现实场景的复杂性,使得行人检测又是一个研究的难点。近年来,深度学习方法的兴起促进了人工智能的发展,相应地带动了行人检测技术的飞速发展。虽然基于深度神经网络的检测模型发展迅速,但在实际场景的应用中还存在着一些问题。如深度网络训练时需要大量有标注的数据,才能得到性能良好的检测器,而数据标注的
随着轨道交通线路的快速建设,交通运输的安全保障工作越来越重要,行车安全问题已成为运输工作中的关键问题。轨道状态检测已经成为保障列车安全的重要手段。图像分割是图像识
研究目的:随着我国肥胖人口快速增加,减肥方法也成为体育科研的热点之一,传统的减肥方法是以有氧运动为主要方式,近几年来,高强度运动减肥效果受到了很多人的关注。本研究对肥胖青少年的身体形态、运动能力、心率变异性等指标分析,旨在揭示有氧运动和TABATA运动对肥胖青少年运动能力以及自主神经系统功能的影响程度,为青少年减肥研究探索科学的方法及健身指导。研究对象及方法:本研究采用了文献资料法、实验测量法、数
无论从流行性还是典范性的标准来看,金庸的武侠小说都是现当代中国文学经典,在中西文化日益交融的趋势下,金庸的武侠译介理应受到重视。武侠小说植根于中国文化土壤,是以娱乐