微博数据挖掘理论的若干关键技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:victorhao84
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年随着微博的快速发展与普及,微博凭借平台开放性、终端扩展性、内容简洁性和低门槛等特性在网民中快速渗透,发展成为一个重要的社会化媒体。微博成为网民获取新闻时事、社会分享、社会参与、人际交往、以及自我表达的重要媒介,使得微博成为社会公共舆论的重要平台,对国家安全和社会发展产生深远的影响。微博数据挖掘技术主要包括话题事件分析,社区、团伙挖掘,情感与影响力分析技术。微博数据挖掘对国家舆论监管与市场营销起着重要作用,对国家的安全稳定有着十分重要的意义,同时也是受到越来越多的关注和重视的领域之一。主要研究内容和成果包括:1)本文利用子话题博文数目庞大且分布不均匀的特点,仅对流行子话题与时序模式建模,依靠流行传播级联树的语义信息,提出了PSLDAT模型。针对先验话题概率与产生式规则生成话题概率标准不统一的问题,提出了映射概率的计算模型,给出一种改进的Gibbs抽样算法。真实的新浪微博数据集上的实验结果表明,本文提出的PSLDAT模型相对于LDA与TOT模型收敛速度更快,同时能够更加有效地发现多数人感兴趣的流行子话题及时序模式。2)为了挖掘微博中的群落,本文提出了一种频繁子树挖掘方法。为了降低传播级联树的联合度(the scale of disjoint),通过剪枝掉不频繁的父子序列,提出了一种Mining MaxTribes算法来发现最大频繁群落。实验包括26万左右的Twitter用户与1000万条推文,真实的实验数据验证了本文提出方法的有效性。3)针对微博中的突发事件,提出了一种基于链式模型的微博用户情感分析方法。首先,我们对用户层次的情感分析进行了形式化定义,并基于微博中的评论标志形成评论单元,通过剪枝形成用户微博链式模型。然后,基于最大熵LDA模型抽取评价对象及用户情感,基于语气词库对用户情感做出最终研判。实验结果表明,本文的模型可以有效挖掘出用户的情感。4)本文考虑用户之间的频繁子图挖掘,提出了一种基于频繁子图挖掘的影响团伙挖掘(Team-FGM)方法。针对团伙内部传播模式的多样化,给出了一种内容扩散树扩展方法,将内容扩散树转换为连通无向无环图,并结合支持度与影响强度,提高了频繁子图挖掘的效率。实验采用新浪微博真实数据集中包括大约110万个用户,实验验证了Team-FGM算法的有效性。实验结果表明Team-FGM算法的效率优于传统的频繁子树挖掘方法Unot,同时,Team-FGM算法的“单步覆盖”与“多步覆盖”的实验结果皆优于基于转发数的实验结果。综上所述,本文主要研究了事件趋势、群落挖掘、博主情感分析、团伙挖掘等关键技术,对于微博舆情的分析和挖掘工作具有重要的理论意义和应用价值。
其他文献
公民学习权具有主体性、平等性和发展性的特点。随着改革开放以来我国教育政策由“国计”到“民生”的价值转变,构建终身教育体系,建设学习型社会成为保障公民学习权的必由之路
近年来,复杂建筑结构逐渐增多,基于ABAQUS的结构非线性分析越发重要。为进一步促进ABAQUS分析技术的工程应用,本文研究了常规分析软件SATWE与ABAQUS分析模型的数据结构,介绍
决策表离散化要求决策表中原有的分类结果不变,而Naive Scaler算法在离散化时,有些根据不可分辨关系应该得到的断点很可能被丢掉,造成决策表信息的丢失。针对这一问题,对其进
本文按正交法设计了18个制备有机蒙脱石的实验,优化了制备最大层间距的蒙脱石的最佳工艺条件,并对其进行了表征,最后制备了几种不同层间距蒙脱石/不饱和聚酯树脂复合材料.FTI
期刊
从发展主义到新发展主义是高等教育发展理念的必然选择,发展主义主导下的高等教育场域中,经济主义、实用主义和国家主义的理念渗透其中,最终形成一种依附式的高等教育发展模式;新
改革开放以来,我国政府先后进行了几次行政体制改革。早期是机构精简,缩减政府职能,不断调整政府与企业之间的关系,主要形式是减少政府对市场和企业的直接控制,政府在宏观调
J2EE模式提供了一组基于J2EE平台的对常见问题的解决方案,但是由于模式角色与模式的每一个实例类之间存在着映射关系,所以按照传统的面向对象方式使用J2EE模式,会产生一系列