论文部分内容阅读
近几年随着微博的快速发展与普及,微博凭借平台开放性、终端扩展性、内容简洁性和低门槛等特性在网民中快速渗透,发展成为一个重要的社会化媒体。微博成为网民获取新闻时事、社会分享、社会参与、人际交往、以及自我表达的重要媒介,使得微博成为社会公共舆论的重要平台,对国家安全和社会发展产生深远的影响。微博数据挖掘技术主要包括话题事件分析,社区、团伙挖掘,情感与影响力分析技术。微博数据挖掘对国家舆论监管与市场营销起着重要作用,对国家的安全稳定有着十分重要的意义,同时也是受到越来越多的关注和重视的领域之一。主要研究内容和成果包括:1)本文利用子话题博文数目庞大且分布不均匀的特点,仅对流行子话题与时序模式建模,依靠流行传播级联树的语义信息,提出了PSLDAT模型。针对先验话题概率与产生式规则生成话题概率标准不统一的问题,提出了映射概率的计算模型,给出一种改进的Gibbs抽样算法。真实的新浪微博数据集上的实验结果表明,本文提出的PSLDAT模型相对于LDA与TOT模型收敛速度更快,同时能够更加有效地发现多数人感兴趣的流行子话题及时序模式。2)为了挖掘微博中的群落,本文提出了一种频繁子树挖掘方法。为了降低传播级联树的联合度(the scale of disjoint),通过剪枝掉不频繁的父子序列,提出了一种Mining MaxTribes算法来发现最大频繁群落。实验包括26万左右的Twitter用户与1000万条推文,真实的实验数据验证了本文提出方法的有效性。3)针对微博中的突发事件,提出了一种基于链式模型的微博用户情感分析方法。首先,我们对用户层次的情感分析进行了形式化定义,并基于微博中的评论标志形成评论单元,通过剪枝形成用户微博链式模型。然后,基于最大熵LDA模型抽取评价对象及用户情感,基于语气词库对用户情感做出最终研判。实验结果表明,本文的模型可以有效挖掘出用户的情感。4)本文考虑用户之间的频繁子图挖掘,提出了一种基于频繁子图挖掘的影响团伙挖掘(Team-FGM)方法。针对团伙内部传播模式的多样化,给出了一种内容扩散树扩展方法,将内容扩散树转换为连通无向无环图,并结合支持度与影响强度,提高了频繁子图挖掘的效率。实验采用新浪微博真实数据集中包括大约110万个用户,实验验证了Team-FGM算法的有效性。实验结果表明Team-FGM算法的效率优于传统的频繁子树挖掘方法Unot,同时,Team-FGM算法的“单步覆盖”与“多步覆盖”的实验结果皆优于基于转发数的实验结果。综上所述,本文主要研究了事件趋势、群落挖掘、博主情感分析、团伙挖掘等关键技术,对于微博舆情的分析和挖掘工作具有重要的理论意义和应用价值。