论文部分内容阅读
随着网络技术的高速发展和网络普及率的飞速提升,社交网络应用例如微信、微博、抖音和推特等已经渗透到人们日常生活的各个方面。这些应用是人们获取、交流和传播社会新闻及热点时事的重要途径,成为了人们生活中不可或缺的组成部分。社交网络上的信息传播具有传播速度快、涵盖范围广和实时性强等特点,许多热点信息会在短时间内迅速酝酿成为一股强大的社会舆论,这种社会舆论能够在一定程度左右热点事件的演化方向。然而,由于部分信息的片面性和误导性,这些舆论中难免会存在一些浅显甚至是错误的认识,对社会稳定乃至国家安全产生不良影响。因此,分析理解社交网络中的信息传播行为、揭示信息传播的特性和规律、识别信息传播过程中的关键节点、推测隐层的信息传播网络,将有助于引导社会舆论走向、缓解社会矛盾、减少突发性事件的负面影响、提高政府决策公信力和公共空间治理水平,从而推进社会健康和谐发展。为此,本文对社交网络中信息传播关键技术进行了相关研究,主要包括以下四个方面:(1)为了解决现有信息传播模型中方程数值解与模拟节点传播行为的仿真结果不匹配的问题,本文提出了一种基于潜在传播节点的离散社交网络信息传播模型SPIR(Susceptible-Potential-Infective-Removed)。潜在传播节点是指与感染节点有所接触的易染节点,该类节点的提出能够优化传播过程的状态变化,避免了离散方程中的重复传播问题。在引入潜在传播节点的基础上,本文对SIR传染病模型进行了拓展,通过分析传播过程中潜在传播节点的复杂群体变化行为,构建了SPIR模型的离散传播方程组。通过在不同网络数据集和不同参数环境下的实验表明,本文提出的SPIR模型能够准确地刻画真实信息传播过程中节点的状态变化,与模拟传播过程的仿真结果保持很高的拟合度。(2)对于现有社交网络影响力最大化算法在评价节点中心性时指标区分度不高且多为局部度量的问题,本文提出了一种基于自适应性节点逆排序的社交网络影响力最大化算法RNR(Reversed Node Ranking)。该算法将反映节点影响力大小的逆序视作节点权重以评估节点的影响力,并以此作为基准对网络中的节点进行迭代排序,确保节点影响力评估的高区分度。为了避免“富人俱乐部”效应,本文提出了两种种子节点优化选择策略,一种保证种子节点之间不存在连边,另一种对种子节点的邻居节点进行弱化,这两种优化选择策略分别适用于独立级联模型和加权级联模型。通过在上述两种传播模型上的多角度实验表明,本文提出的RNR算法具有优异的性能,实验还揭示了独立级联模型和加权级联模型对于“富人俱乐部”效应的不同敏感程度。(3)根据现有社交网络拆解算法弱化树分解步骤且忽略了数据预处理的问题,本文提出了一种基于骨架抽取与贪心树分解的社交网络拆解算法SEGTB(Skeleton Extraction and Greedy Tree Breaking)。网络骨架为支撑网络拓扑结构的连通子图,且该子图具有较大的邻居覆盖范围和较小的内部链接数。该算法首先识别并抽取网络骨架,对网络进行数据预处理,然后,通过对度值为1的节点进行迭代剪枝将剩余图去环成树。最后,利用一种基于贪心策略的方法实现树分解,该方法可以保证其需要删除的节点数量小于最优解的两倍,并给出了相应的理论证明。通过在十个真实网络上的多角度实验表明,本文提出的SEGTB算法效果明显优于其它网络拆解方法,并且具有较高的运行效率。(4)在推测社交传播网络结构时,现有相应算法需要依赖大量的级联数据且在衡量两节点间边概率时仅考虑了两者的时间差。针对上述问题,本文提出了一种基于归一化概率与度值估算的社交传播网络推测算法NPDE(Normalized Probability and Degree Estimation)。该算法首先根据特定的信息传播概率模型,计算每条信息级联内所有有效节点对之间的独立边概率,然后对所有的指向该目标节点的边概率进行归一化处理。在依次处理完所有信息级联后,算法对每组有效节点对的归一化边概率进行求和,并以该值的大小评估其连边存在的可能性。由于对概率进行了归一化处理,该算法可以在信息级联样本较少的情况下依然保持着较为优异的效果。另外,该算法通过边的存在概率对边两端的节点度值进行估算,并在最终推测传播网络结构时考虑节点度值对边数的限制。通过在四种网络模型和三种传播概率分布模型的多角度实验表明,本文提出的NPDE算法在信息级联规模较小的情况下依然保持着优异的效果和较高的运行效率,此外还揭示了度值的限制对传播网络推测问题具有重大意义。