基于社区发现的社交网络结构洞并行迭代挖掘算法

来源 :东北大学 | 被引量 : 2次 | 上传用户:xingyongxiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Facebook, Twitter等网站的兴起,社交网络的规模日趋复杂和庞大。通常,网络呈现社区分布结构,而社区间非冗余关系的存在形成了网络的漏洞。分析这些社区和漏洞可以了解网络中的群落分布和竞争优势,是社会关系网络分析中重要的基础性研究,并已成为当今学术界和工业界的热点话题。目前,经典的社区发现算法包括Newman等人提出的GN算法及其改进、基于评价社区结构的Q函数算法和基于clique发现的算法等。然而,这些算法时间复杂度较高,不适用于大型社交网络的处理。本文借鉴COPRA算法的标签传播机制,简化社区发现的过程,提出一种基于BSP模型的并行迭代算法PCOPRA,并最终应用于BC-BSP系统中。与此同时,针对COPRA算法的缺点,本文进行了两点改进:(1)为避免因COPRA算法的同步标签传播而导致的标签振荡现象,使得算法无法收敛;也为避免因异步标签传播而导致挖掘结果的不稳定,本文提出了标签传播的半异步迭代机制。通过同/异步交替运行的方式,算法可结合两种迭代各自的优点,在确保结果稳定性的同时加快算法收敛速度,获得更好的性能。(2)为避免COPRA算法因对网络未知全局参数的过度依赖而影响社区挖掘结果的准确性,本文通过各节点对周围邻居社区情况的判别来自主决定网络参数,增加了社区发现过程的灵活性,提高了挖掘效率。除此之外,为支持标签的异步迭代更新,本文对BC-BSP系统的同步模型做了扩展。通过在当前超步提前获取下一超步的消息来实现顶点的跨步更新,用以支持对增量迭代、标签传播等应用的快速处理。社交网络上的结构洞挖掘仍缺乏一个完备的理论算法,特别是对大型网络的挖掘。针对以上问题,本文贡献如下:(1)基于社区发现的结果,并借鉴Tang等人提出的HIS结构洞模型,设计并实现了一种改进后的基于BSP模型的并行结构洞挖掘算法PHIS,并最终应用于BC-BSP系统之上。(2)通过对节点更新规则的分析,从减少节点计算量和消息通信量的角度对算法进行了优化,很大程度地提升了性能。本文所提出的并行化算法基于BSP模型。实验表明,在大规模社交网络中,算法可以在有效的时间内挖掘出高质量的社区和结构洞。
其他文献
语义Web是下一代Web发展的重要方向,本体(Ontology)是语义Web的核心,然而手工构建本体却非常繁琐而耗时。因此,本体学习(Ontology Learning),或自动与半自动的本体构建,成为研究的
随着计算机网络技术的发展,企业对网络技术的应用也越来越多,局域网安全问题就变得越发重要。由于计算机中的数据都是以文件的形式存储,文件系统安全就成为局域网安全里的一
随着Internet的迅速发展,网络安全问题日益严重,安全威胁事件逐年上升,近年来的增长态势变得尤为迅猛。其中,网络蠕虫由于危害严重、攻击范围大、爆发速度快,己经成为目前互
随着信息技术的发展,电子信息系统的规模将越来越大,系统构成也将越来越复杂。本文以大规模电子信息系统为背景,针对电子信息系统监控中网络故障检测技术进行了研究。在分析了传
人脸检测与识别作为物体检测识别问题的一个特例,长期以来一直备受关注。无论是从实际应用还是从理论研究的角度来看,人脸检测与识别都是一个颇具吸引力的课题。随着社会的发
逻辑学是一门研究思维形式及思维规律的科学,它是人类进行判断,推理的基础,在人工智能的发展过程中发挥了巨大的作用。概率逻辑作为逻辑学的一个分支,它以概率论作为其理论基础,在
随着消费类电子市场的急剧增加,以视频、语音等多媒体处理为代表的实时服务越来越为大众所瞩目。传统的Linux作为分时系统其设计目标专注于吞吐量最大化,而实时能力则不尽人
随着数据库技术的快速发展,全球范围内的数据存储量急骤上升,激增的数据背后隐藏着许多潜在的信息,然而,缺乏了对数据进行深层次分析的技术,导致了“数据丰富但知识贫乏”的现象。
近几年来,随着电信市场的逐步开放,国内外竞争环境的加剧使中国电信运营商传统的经营模式备受考脸。话单量日益增加,BOSS建设的省集中,所有这些都对运营支撑系统的重要子系统计费
无线传感器网络是由大量低功耗、低代价、相互协作的节点组成,采用无基础设旌对等式通信方式进行分布式管理的网络,是一种自创造、自组织和自管理网络。节点体积小、由电能有限