基于DeepWalk算法的复杂网络社团发现研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:gaoyijie1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据作为信息的载体之一,在这个信息爆炸的时代,其重要性不言而喻。图结构数据作为复杂网络的一种描述方式,其研究价值在于复杂网络对这个世界的诸多现象的抽象性以及概括性。提升图结构数据的分析能力,能够更好探究复杂网络中的各类重要特性以及分析诸多现实世界中存在的复杂网络。社区结构是复杂网络的重要特性之一,也是现实世界中诸多复杂网络呈现的特性,其现实应用包括但不限于黑色产业检测、广告精准投放以及社交网络分析。在数据规模日益增大、数据复杂度日益增高的情况下,为了更有效的在复杂网络数据上执行社团发现任务,本文基于图嵌入中Deep Walk算法的两大模块RandomWalk以及SkipGram,针对不同的网络数据进行相应的研究与改进,从而提升Deep Walk算法所得到的节点向量表示在社团发现算法K-means中的效果,并且有效地避免维数灾难。本文主要研究内容及取得的主要成果如下:1.在只提供复杂网络数据的拓扑信息,如邻接矩阵或邻接表的情况下,结合PSO模型,基于Hyper Map算法所得到的节点双曲空间坐标,定义由双曲空间距离公式演化而来的节点间连边的权重计算公式,同时引入超参数提升算法的泛化能力,将RandomWalk改进为Weighted Walk,从而更有效地提取节点间的相似性以及节点的流行性等信息。研究表明,在选取的五个真实网络数据中,Weighted Walk相较于原生Deep Walk算法中的RandomWalk,能够有效提取节点的相似性信息与流行性信息,提升聚类效果,从而改进社团发现效果。2.现实网络研究中,在提供复杂网络数据的拓扑信息的基础上,还会提供节点的自身属性信息。基于这些节点的自身属性信息,通过设定相应函数得到节点的相似度矩阵,利用相似度矩阵,将RandomWalk改进为Weighted Walk,从而改进Deep Walk算法,改进的Deep Walk算法的性能得到了提升。3.基于上述节点相似度矩阵,研究并改进SkipGram模型的目标函数,改进训练过程中节点的嵌入向量更新公式,将相似度信息融入到迭代过程。研究表明,现实网络数据中,改进的SkipGram模型比原生SkipGram模型性能有较大提升,通过仿真验证算法的有效性。
其他文献
国际能源危机的来临、国家政策的导向促使节能问题成为制造业关注的重点问题。随着智能工厂的发展,机器人柔性生产线将会在未来逐渐成为制造工厂中的生产主力军,同时也是制造工厂的主要能耗者。可以预见,机器人柔性生产线节能技术具有重要的研究意义。本文基于工业机器人轨迹规划和柔性生产线调度,开展机器人柔性生产线节能技术研究。所提出的节能技术均在真实工业机器人与柔性生产线进行了应用实验,具有一定的应用价值。主要研
随着互联网技术的快速发展,安全技术与云计算逐渐交织形成一种新的安全防御途径——安全共享资源池。“安全即服务”作为一种新的服务受到学术界和产业界极大的关注,用户只需租用安全资源,即可在不消耗本地计算资源的情况下享受到安全服务。但是随着安全共享资源池的扩展,数据中心管理成本不断增加,安全资源池如何在确保安全性的同时降低成本成为人们关注的问题。研究根据节点资源负载随时间的变化特点,达到安全共享资源池的资
连接查询技术往往需要很高的时间开销。随着数据量加大,连接查询会因其时间开销过大而失去实用性。现实的数据集通常是包含大量重复元组的脏数据集,会造成查询结果包含重复元
随着大数据时代的到来,互联网迎来新的发展,无论对于企业还是个人,数据信息都越来越重要,保护数据信息的安全,在发生意外的时候保证充足的容灾备份成为当下越来越重要的研究方向。由于数据量的飞速增长,需要通过迅速、高效的方法把源数据同步到备份服务器中。采用常规同步的方法在面对数据量较大的时候,有占用存储空间多,占用网络带宽高,同步效率低下等问题,所以本文从现实考虑出发,提出以数据分块算法和布隆过滤器为基础
近年来,国家多次进行普法行动意图让全国人民知法懂法,以此来降低犯罪率。全靠人力来普法将是一个漫长而艰难的过程,目前很多涉案人员了解案情都是要通过求助专业法律人员,这
人类获取信息的80%以上来自视觉,大脑视觉系统具有效率高和鲁棒性强等优势,如何理解和模拟大脑视觉信息加工方式是神经科学与计算机科学交叉领域的热点问题。功能磁共振成像(functional Magnetic Resonance Imaging,f MRI)因其良好的时空间分辨率和无损成像等优点已成为研究人脑的主要手段之一。基于f MRI建立视觉编码模型是以大脑视觉感知机制为依据,模拟大脑视觉信息处理
用户识别问题是数据分析和挖掘中的重要问题之一,旨在实现对关联到某些资源信息的人的身份进行验证。通常情况下,研究人员利用与用户相关的数据资源,提取可以作为用户身份标识的特征,通过特征降维、选择等操作后,使用相似性度量方法对用户的特征进行相似度匹配,输出相似度最大的结果作为识别结果。用户识别问题在个性化推荐、信息取证和隐私保护等领域具有广泛的应用和重要的研究价值。在用户识别问题研究中,特征的选择和构造
当前,信息过载问题严重困扰着每一个人。在我们的日常生活以及互联网行业中,推荐系统对于解决信息过载问题起着不可或缺的作用。在实际应用中,几乎每一条数据都带有时间标签,数据间的时间跨度是一个不可忽视的问题。因此时序性推荐系统受到广泛关注。直观地讲,数据越旧,推荐时的时间权重就越小,因此常规研究始终使用遗忘曲线来建模时间因子。但是,这些研究仅将时间作为一个公共属性,而不是维度。用户和项目之间的每次交互行
随着网络技术的不断发展,P2P网络由于其匿名性与开放性的特点而得到了广泛的应用,如文件共享和即时通信。同时这些特性也为P2P网络带来了新的挑战,恶意节点随意的传播非法消息,会对网络的可用性以及用户体验带来负面的影响,并且P2P网络的动态性与分布性也使得节点之间很难进行长期并稳定的交易,目前所提出的信任模型并不能很好的解决P2P网络中存在的交易不可靠、动态网络拓扑等问题,现有的研究成果仍然存在不足,
近年来随着气候变化的加剧,城市化进程的加快,极端降雨频发,洪涝灾害造成了较大的生命财产损失。同时随着计算性能提升和计算方法的改进,雨洪数值模型成为研究洪涝问题的重要