论文部分内容阅读
随着互联网的日益普及,尤其是Web2.0的蓬勃发展,用户的参与度大大提高,互联网上产生了大量对诸如人物、事件、产品等具有情感倾向的评价性信息。通过对这些情感信息的分析,我们可以了解到大众对某个事件或者某件产品的看法。微博,作为一种新的社交媒体已被大众广泛接收,其发展和增长的速度超出大家的预料,每日交流的数据量呈爆炸式增长。这为自然语言处理提供了新的研究领域,并提供了大量新形式的评论文本,传统的文本分析大多着眼于提取新闻文献等格式规范的文本的核心内容及主题上,但对微博这种长度较短,情感强烈,话题单一的短文本,需要通过新的技术手段去了解其关注的内容和倾向。本文旨在通过改进现有的情感分析方法,使其适用于微博短文本这种新的文本形式。本文研究了微博短文本情感分析的三个关键问题。包括主客观分类方法的研究、情感倾向性分析的研究、多类别情感分类的研究。主要的研究内容及创新点概括如下:1.提出一种综合多元词汇特征和多元词性特征对微博短文本主客观分类的方法。该方法通过多分类器组合和集成学习相结合,构建Vote-AdaBoost组合分类方法,通过迭代式更新,优选合适的分类器作为投票组合,能够有效提升对微博短文本主客观识别的准确率。在该方法的研究过程中,首先通过分析适合于微博短文本主客观分类的情感特征,将情感词典与多元词汇特征、多元词性特征和微博上下文特征结合,构建主客观分类时可用的主观特征。分别选用基于词典的主客观判别方法和基于统计的主客观判别方法。针对现有单一分类器方法对微博短文本的主客观判别效果不佳的现状,尝试多分类器组合和集成学习相结合的方法,分别探讨采用权重投票方式的多分类器组合方法和基于AdaBoost集成学习方法的单一分类器改进方法。通过构建Vote-AdaBoost组合分类方法,优选合适的分类器作为投票组合,通过集成学习方式提升投票组合中的较差部分,最终获得对微博主客观分类的有效的分类方法。2.提出一种基于情感要素的微博短文本情感极性判别方法,该方法中将包含情感信息的词汇和词汇组合等特征作为统一的情感要素进行处理。通过改进现有使用知网相似度的情感分析方法,提出基于最短路径关键点的知网基准词获取方法,通过优化基准词的获取方式,使情感要素的情感值能够被正确判别,提高使用情感要素判别微博短文本情感极性的准确率。在该方法研究过程中,首先根据微博短文本的特点提出情感要素的概念,将具有独立词性的情感词汇和包含情感信息的最小词汇组合作为统一的情感要素特征项,根据情感词典、知网情感相似度、统计方法对情感要素进行特征抽取,构建统一的情感极性判别方法。然后,通过改进知网情感相似度方法,来提高对情感要素特征抽取和情感值计算的准确性。针对现有研究中知网情感相似度计算缺乏合理有效的情感基准词获取方法,提出基于最短路径关键点的知网基准词获取方法。通过构建备选基准词相似度关系图,以改进的Floyd算法来抽取有效的情感基准词。通过选择与其它情感词关系紧密,相似度高的词汇为基准词,提高对情感词的情感极性判别的准确性。之后,分别采用词频统计方法和机器学习方法,实现利用情感要素来判别微博短文本的情感极性。3.提出一种面向多类别情感的细粒度情感分析方法,针对现有特征抽取方法多仅考虑二元分类的限制,通过结合方差统计方法改进传统TF-IDF方法,使其在多类别的文本中具有有效性。形成一种适合多类别情感特征抽取的多分类特征抽取的计算方法。在使用过程中采用先极性判断,后细粒度情感判断的处理方法,构建细粒度情感分析与判断流程,并将其应用于微博短文本的细粒度情感判断中。通过和传统特征抽取方法对比,证明其具有更准确的效果。在该方法研究过程中,首先提出一种细粒度特征抽取方法,设计面向多类别的TF-IDF权重计算方法。由于TF-IDF方法本身不包含分类功能,将其与统计学上的方差相结合,把偏移量的大小作为特征项在多分类中的贡献度来考虑,从而提取出在多类别中偏差度大、词频较高且集中的特征词作为多类别分类的特征项。分别采用TF和TF-IDF方法进行情感倾向判断,通过归一化实现特征项情感值的描述。然后在该方法的基础上,构建了细粒度情感分析与判断流程,选择大连理工大学提供的情感本体库作为细粒度情感划分的依据。根据我们设计的权重计算方法和情感判断流程,实现对微博短文本中多类情感的判别方法。经实验证明,该方法与现有的特征抽取方法相比,能够快速有效的判别特征项在多类别中的权重。通过参与多类别情感分类的评测任务,进一步验证了本文中细粒度情感分析方法的有效性。