面向微博短文本的情感分析研究

被引量 : 73次 | 上传用户:z174433854
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的日益普及,尤其是Web2.0的蓬勃发展,用户的参与度大大提高,互联网上产生了大量对诸如人物、事件、产品等具有情感倾向的评价性信息。通过对这些情感信息的分析,我们可以了解到大众对某个事件或者某件产品的看法。微博,作为一种新的社交媒体已被大众广泛接收,其发展和增长的速度超出大家的预料,每日交流的数据量呈爆炸式增长。这为自然语言处理提供了新的研究领域,并提供了大量新形式的评论文本,传统的文本分析大多着眼于提取新闻文献等格式规范的文本的核心内容及主题上,但对微博这种长度较短,情感强烈,话题单一的短文本,需要通过新的技术手段去了解其关注的内容和倾向。本文旨在通过改进现有的情感分析方法,使其适用于微博短文本这种新的文本形式。本文研究了微博短文本情感分析的三个关键问题。包括主客观分类方法的研究、情感倾向性分析的研究、多类别情感分类的研究。主要的研究内容及创新点概括如下:1.提出一种综合多元词汇特征和多元词性特征对微博短文本主客观分类的方法。该方法通过多分类器组合和集成学习相结合,构建Vote-AdaBoost组合分类方法,通过迭代式更新,优选合适的分类器作为投票组合,能够有效提升对微博短文本主客观识别的准确率。在该方法的研究过程中,首先通过分析适合于微博短文本主客观分类的情感特征,将情感词典与多元词汇特征、多元词性特征和微博上下文特征结合,构建主客观分类时可用的主观特征。分别选用基于词典的主客观判别方法和基于统计的主客观判别方法。针对现有单一分类器方法对微博短文本的主客观判别效果不佳的现状,尝试多分类器组合和集成学习相结合的方法,分别探讨采用权重投票方式的多分类器组合方法和基于AdaBoost集成学习方法的单一分类器改进方法。通过构建Vote-AdaBoost组合分类方法,优选合适的分类器作为投票组合,通过集成学习方式提升投票组合中的较差部分,最终获得对微博主客观分类的有效的分类方法。2.提出一种基于情感要素的微博短文本情感极性判别方法,该方法中将包含情感信息的词汇和词汇组合等特征作为统一的情感要素进行处理。通过改进现有使用知网相似度的情感分析方法,提出基于最短路径关键点的知网基准词获取方法,通过优化基准词的获取方式,使情感要素的情感值能够被正确判别,提高使用情感要素判别微博短文本情感极性的准确率。在该方法研究过程中,首先根据微博短文本的特点提出情感要素的概念,将具有独立词性的情感词汇和包含情感信息的最小词汇组合作为统一的情感要素特征项,根据情感词典、知网情感相似度、统计方法对情感要素进行特征抽取,构建统一的情感极性判别方法。然后,通过改进知网情感相似度方法,来提高对情感要素特征抽取和情感值计算的准确性。针对现有研究中知网情感相似度计算缺乏合理有效的情感基准词获取方法,提出基于最短路径关键点的知网基准词获取方法。通过构建备选基准词相似度关系图,以改进的Floyd算法来抽取有效的情感基准词。通过选择与其它情感词关系紧密,相似度高的词汇为基准词,提高对情感词的情感极性判别的准确性。之后,分别采用词频统计方法和机器学习方法,实现利用情感要素来判别微博短文本的情感极性。3.提出一种面向多类别情感的细粒度情感分析方法,针对现有特征抽取方法多仅考虑二元分类的限制,通过结合方差统计方法改进传统TF-IDF方法,使其在多类别的文本中具有有效性。形成一种适合多类别情感特征抽取的多分类特征抽取的计算方法。在使用过程中采用先极性判断,后细粒度情感判断的处理方法,构建细粒度情感分析与判断流程,并将其应用于微博短文本的细粒度情感判断中。通过和传统特征抽取方法对比,证明其具有更准确的效果。在该方法研究过程中,首先提出一种细粒度特征抽取方法,设计面向多类别的TF-IDF权重计算方法。由于TF-IDF方法本身不包含分类功能,将其与统计学上的方差相结合,把偏移量的大小作为特征项在多分类中的贡献度来考虑,从而提取出在多类别中偏差度大、词频较高且集中的特征词作为多类别分类的特征项。分别采用TF和TF-IDF方法进行情感倾向判断,通过归一化实现特征项情感值的描述。然后在该方法的基础上,构建了细粒度情感分析与判断流程,选择大连理工大学提供的情感本体库作为细粒度情感划分的依据。根据我们设计的权重计算方法和情感判断流程,实现对微博短文本中多类情感的判别方法。经实验证明,该方法与现有的特征抽取方法相比,能够快速有效的判别特征项在多类别中的权重。通过参与多类别情感分类的评测任务,进一步验证了本文中细粒度情感分析方法的有效性。
其他文献
目的探讨分析颅脑外伤合并肺挫伤进展至急性呼吸窘迫综合征(acute respiratory distress syndrome,ARDS)的危险因素。方法回顾性分析作者医院2005-01月/2012-12月收治的80例
目的:探讨医护配合模拟急救现场演练培训方法对提高护士急救核心能力的作用。方法:将我院40名工作2~6年护士随机分成医护配合培训组和常规培训组各20名,共同参加急救理论和技
在学校心理辅导方面,新加坡倡导“全方位教育工作体系”,也就是全体教师都要参与到学生辅导工作中来。不同职位的人在学生辅导工作中职责不同。
目的:了解互助县35岁以上人群高血压患病情况及相关危险因素,为今后互助县高血压防治工作提供数据。方法:收集2015年互助县基本公共卫生服务项目各乡镇报表进行分析。结果:互助县
建筑业是一个独立的物质生产部门,是我国国民经济的重要支柱产业之一,建筑业的高速发展推动了我国国民经济的快速增涨,同时国民经济的快速增涨也促进了建筑业的生产规模扩大,尤其
重庆市作为一个新兴成立的直辖市还在不断摸索前进时,大学生的数量随着国家的政策的放宽在增加,扩招与产业结构不相容、就业政策体系不健全、社会保障体系缺失、社会环境不宽松
在国民经济高速发展,电力客户高速增长,配网日益复杂的情况下,当配电网发生复杂故障,开关、保护存在较多误动、拒动以及因信息干扰发生信息丢失等诸多不确定因素时,会使得故障后的
社会性别理论是研究家庭暴力的影响因素及对策的一个重要角度,它对家庭暴力的产生给与了一定的解释,并在救助、防治、立法等方面产生了很好的效用。同时,从社会性别角度探讨
温州市消防支队担负着全市的火灾预防、火灾扑救、抢险救援等任务,其119消防接处警系统具备处警联动、报警定位、消防安全重点单位关联、水源显示和消防视频监控等功能,系统运