论文部分内容阅读
当前,随着网络技术的飞速发展和网络用户的海量增加,在线社会网络和社交媒体已经在信息扩散和传播过程中扮演着至关重要的角色。在线社会网络中的信息扩散有着诸多与传统媒介显著不同的特点,吸引了大量研究人员对此开展研究。这些研究能够帮助商业人士制定更加有效的市场营销决策,帮助用户更容易发现有价值的内容,帮助政府有关部门及时发现和抑制有害内容的传播。虽然已有研究已经取得了众多的研究成果,但是,对于影响社会网络中信息扩散的一些重要因素以及信息扩散模型的研究仍然存在着诸多的不足。为此,本文从寻找和定量分析对于信息传播有重要作用的影响因素,以及社会网络中的信息扩散建模这两个方面出发开展工作,论文的主要研究内容和成果包括:在影响社会网络信息扩散的结构因素方面,本文提出了一个“葡萄”结构模型用于描绘社会网络中大规模信息扩散的总体发生过程,并提出了信息扩散的四个结构模式,每个模式都代表一种典型的级联结构并且反映出不同的扩散机制。本文收集了 45000多个大规模社会网络信息扩散事件,它们的扩散规模从几千到几十万个节点不等。通过对这些扩散事件的分析,本文发现大多数的大规模扩散的网络结构是非常稀疏且缺乏聚集属性的,其扩散过程中具有两个令人意外的共性现象:首先,即便是这些传播范围很广的热门事件,它们在人群中的“感染概率”仍然非常的低;其次,网络中一个节点被某个事件“感染”的概率并不会因为这个事件被反复曝光而增加。这些现象有效支持了本文提出的“葡萄”结构模型。最后,本文将大规模扩散与小规模扩散做了对比,发现结构特性并不是区分大规模扩散和小规模扩散的关键因素。在影响大规模社会网络中的信息扩散的内容因素方面,本文首先根据内容本身以及用户行为数据提取了多项特征用于表示内容自身的吸引力。在用户转发行为预测任务上的实验表明,利用内容吸引力特征能够显著提升实验的预测效果,说明其对于社会网络信息扩散具有重要影响。其次,本文采用多种方式构建主题模型推导传播内容的主题分布以及用户的兴趣偏好,并计算了用户兴趣与内容之间的匹配度。在用户转发行为预测实验中,本文分别采用不同方式计算得到的内容兴趣匹配度作为特征,能够获得7%到14%的预测效果提升。这些实验结果表明内容兴趣匹配度对信息扩散具有显著影响。在影响大规模社会网络中的信息扩散的外部影响力方面,本文设计了一个重构级联树算法,能够将信息传播过程中所受外部影响力的作用抽离出来。通过将算法应用于海量扩散数据并进行统计分析,本文得到关于外部影响力的四个有价值的发现:首先,尽管只有小部分的传播是由外部影响力直接导致的,但在整个扩散过程中外部影响力有着非常重要的作用。具体而言,有50%到70%的扩散节点都受到了外部影响力的作用,并且随着级联扩散规模的增大,这种影响会随之变强。其次,外部影响力能够促使用户和网络中的陌生人发生交互,让更多的用户之间建立连接,社会网络的网络结构因此变得更加紧密,从而有益于信息的扩散。再次,外部影响力可以分为两种,一种影响扩散的规模而另一种偏向于影响扩散的深度。最后,由于外部影响力的存在,传统的意见领袖的作用会下降,普通用户创造的优质内容更有机会被快速传播。在上述信息扩散影响因素分析的基础上,本文提出了用于建模社会网络信息扩散的扩散-潜在狄利克雷配置(Diffusion-Latent Dirichlet Allocation,D-LDA)模型,它在同一个生成过程中融合了内容的主题分布计算以及用户间影响力计算。模型通过两个步骤交替迭代推导:U-Part推导得到内容与用户的主题分布,而D-Part则计算得到用户之间的影响力以及内容自身的吸引力。D-LDA模型能够区分用户转发行为中所包含的内容相关因素和影响力相关因素。模型训练采用Gibbs Sampling进行参数推断。最后,在大规模数据上通过多项实验对于D-LDA模型的结果进行评测。实验结果表明D-LDA模型能够在少量迭代后迅速收敛,在多个不同评估任务和指标上均取得了比基线模型更好的性能。