论文部分内容阅读
随着在线社交网络平台的爆炸式增长,比如国内的微博、微信,国外的Twitter、 Facebook等社交网络平台,人们越来越倾向于在社交网络平台上发表自己的观点,表达情感态度。与此同时,社交网络平台产生了海量的蕴含了用户的情感倾向、观点态度的文本数据。挖掘这些信息分析其情感倾向性,对优化个性化推荐,更好地进行舆情监控等都有很重要的价值和意义。然而,社交网络文本以其口语化、时效性强以及网络化等特点,给传统的情感分析等任务带来了巨大的挑战。众所周知,除了文本,转发等行为关系数据也是社交网络文本的一大特点。针对此特点,本文结合图排序模型,利用用户的行为关系数据来分析微博的情感。然而,在对社交网络文本进行情感分析时,也会存在一些其他的问题,其中一个最显著的问题就是语料分布的不平衡。针对此问题,本文做了进一步研究,提出了一种基于情感关键句抽取的跨领域情感分析方法。一方面,本文针对社交网络文本自身的特点,提出了一种基于图排序模型的微博情感分析方法。该方法首先利用微博中含有的丰富的表情符号,基于表情符号进行无监督的语料标注,在一定程度上弥补了语料分布不平衡的问题;然后,鉴于微博等社交网络文本的特征的稀疏性,利用受限波尔兹曼机进行新特征抽取;最后,利用微博的转发关系以及同一用户发表的不同微博之间的关系,构建了微博邻接关系图,并结合图排序模型对微博进行情感分析。该方法充分利用社交网络文本的文本数据的同时结合行为关系数据,较好地实现了微博的情感分析。另一方面,针对社交网络文本在情感分析过程中,易出现语料分布不平衡的问题,提出了一种基于情感关键句抽取的跨领域情感分析方法。该方法首先基于文档中不同句子具有不同的情感贡献度的思想提出了情感关键句的概念,构造抽取情感关键句的启发式规则,并与机器学习算法相结合来抽取网络评论的情感关键句;然后基于抽取的情感关键句,将数据划分为key和detail两个视图;最后利用视图集成策略将两视图有效融合,实现了跨领域的情感分析,进而在一定程度上解决了随着社交网络的飞速发展,文本数据分布变化带来的语料分布不平衡的问题。