论文部分内容阅读
随着互联网和Web2.0技术的快速发展,网络媒体以其独特的交互传播方式逐渐成为民众表达诉求和获取信息的主要渠道,极大的促进了民众话语权的解放。作为反映社情民意的风向标,网络舆论对社会生活的影响日渐凸显。微博凭借其鲜明的即时性、灵活性、集成性、草根性等优势,成为网络舆论的主要来源地和重要集散地。因此,研究网络空间微博话题的关联关系进而分析其演化过程,对于准确及时地掌握舆论话题的发展状态和趋势具有非常重要的指导作用。微博中具有强信息传播影响力的个体在话题传播中充当着重要的媒介,对舆论话题的发展演化具有关键性影响。因此,将影响力个体的作用引入到话题关联分析研究中,对于提高话题演化分析结果的准确性具有重要的理论和现实意义。 首先,本文提出了一种综合考虑用户多关系与个人属性特征的话题层次用户影响力评估(CIRank)算法。针对微博用户的多关系交互特性,给出了多关系影响网络的概率计算方法,并综合考虑四种属性特征设计出基于话题的用户个人属性影响力评估方法。最终得到融合多关系与个人属性的影响力评估算法CIRank。通过大量新浪微博数据集的对比实验,证明了该算法的准确性和有效性。 其次,在挖掘出影响力个体的基础上,针对现有话题演化分析方法准确率低的问题,对传统的话题相似度计算方法进行改进。通过引入影响力个体,分析其对话题演化的导向和推动作用,给出话题影响力个体相似度的计算方法,并结合语义相似度提出一种新的基于KL距离的话题关联度度量方法。 最后,提出一种基于影响力个体的话题关联演化分析模型。该模型首先采用经典的LDA模型对每个时间片内的文本集进行子话题抽取,然后综合考虑话题的影响力个体相似度、语义相似度和关联度来分析子话题间的关联关系,从而得到不同时间片间子话题的多种关联演化关系。基于新浪微博数据集的实验,验证了该模型可以准确地分析话题的真实演化过程。