论文部分内容阅读
新浪微博已迅速发展成为拥有海量普通用户和各领域知名用户的重要媒体平台。一方面,将用户影响力和微博情感相结合来分析微博话题中普通用户和高影响力用户的情感,对很多部门和行业都具有重要应用价值,另一方面,用户影响力可改善微博用户情感分析性能。但现有研究主要存在以下问题:(1)在用户影响力方面,微博短小导致LDA(Latent Dirichlet Allocation)主题模型分析效果差,用户交互时间动态性以及用户与互动话题之间关联性考虑不足;(2)在微博情感分类方面,微博短小口语化导致分类效果差,引入微博之间的情感关系存在不足,分类性能对训练集规模的依赖性较强。本文针对以上问题开展研究,具体如下:(1)为提升LDA主题模型分析微博话题的性能,以计算用户在微博话题下影响力,提出基于微博话题的用户影响力计算方法。针对LDA主题模型不适用于微博短小的问题,使用微博社交关系改进LDA主题模型来分析微博话题,针对用户交互时间动态性考虑不足问题,使用指数衰减函数模拟用户转发时间动态性,并将其引入到用户转发影响力和用户自身质量的计算中来解决,针对忽略用户与话题之间关联性问题,通过计算用户与互动话题之间关联度来解决。实验结果表明,该方法能有效识别话题领域内能持续产生高影响力的用户,计算性能更优。(2)为分析用户在微博话题下的情感极性,提出基于话题关系和用户影响力的微博情感分类方法。针对微博情感关系有效性不足问题,利用话题中的用户话题上下文、显式赞同话题关系、隐式用户影响力话题关系建立微博之间情感关系来解决,针对微博短小导致分类效果差的问题,通过引入网络词典以及建立与情感明确微博之间的情感关系来确定情感不明确微博的情感极性,针对分类性能对大规模训练集的依赖性较强问题,建立已标记样本和未标记样本之间情感关系构建半监督情感分类方法,能在一定程度上缓解分类性能对训练集的依赖性。实验结果表明,相比传统微博情感分类方法,该方法的分类性能更优。(3)为有效排除网络水军干扰,提供准确可靠的股票情感信息,实现了面向股票话题的股票投资者情感倾向分析系统。该系统将用户影响力和微博情感应用到股票领域,以识别海量股票投资者中高影响力投资者和普通投资者并分类他们相应情感倾向。该系统主要功能是投资者分类、投资者情感倾向分类、相关性展示。使用真实股票微博和股票历史数据,验证该系统可在一定程度上缓解股票微博语料缺乏问题,并实证分析将两者结合可有效排除股票水军的干扰,对分析股票市场具有一定意义。