论文部分内容阅读
网络技术的发展,使得网络成为人们获取信息的重要媒介。然而,现今人们已不满足于单纯的从网络中获取信息,而是倾向于在网络中表达出自己对事物或者事件的观点、态度和想法。特别是近些年来,随着博客、BBS、微博、电子商务网站、社交网站的兴起,网络中出现了大量具有鲜明情感倾向性的内容。了解大众对某件商品的口碑可以帮助商家做出更有利的决策;挖掘人们对社会事件的看法,掌握社会舆情,可以帮助政府维护社会的安定,因此文本情感倾向性分析的研究具有重要意义。文本的情感倾向性分析涉及的面很广,本文对此研究中涉及到的关键技术做了详细介绍,包括分类标准、中文分词、词汇的倾向性研究、文本的倾向性分类技术、词汇的消歧技术等,并对这些关键技术的国内外研究现状做了详细的调查分析。首先,有关篇章级别的文本情感倾向性分析研究,目前仍不能取得令人满意的召回率和准确率。因此,本文针对这一问题,提出了一种基于HowNet和《同义词词林》构造情感倾向性词典的方法。在构造好的情感倾向性词典的基础上,提出了融合多种特征的文本情感倾向性分析方法,这个分析方法中考虑了转折类型复句、否定词、程度级别词对文本情感倾向性的影响。并且采用公开数据源对本文所提出的这一分析方法进行了测试,取得了良好的准确率和召回率。其次,基于语义的文本情感倾向性分析目前也存在一个难点——对动态情感词汇的处理,即对在不同上下文中表现出不同情感倾向性词汇的处理技术。本文提出了一种基于Bootstrapping算法的动态情感词汇处理方法,该方法采用少量手工标注的语料,通过多次迭代扩大种子语料的规模,然后用机器学习的方法对动态情感词汇进行消歧。本文对6个动态情感词汇利用所提出的方法进行消歧,达到了预期的目的。