大尺度在线社会网络结构研究

被引量 : 0次 | 上传用户:wangxingkun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线社会网络(OSN:Online Social Network)是由大规模(千万级以上)互联网用户及其相对稳定的联接关系构成的集合,目前已经成为人们日常交流的重要方式。此类网络在一定程度上,可以看作是现实社会关系(如共同兴趣者、家人及朋友等)在网络空间的一种映射,是物理世界在网络空间的重现。在线社会网络由早期的Email网络发展到现在,规模越来越庞大。在可预见的未来,在线社会网络会越来越多地影响人类的生活,改变物理世界中人类社会的组织结构,影响人类社会的发展进程。目前,在线社会网络已成为业界和学术界关注的热点。在在线社会网络的研究中,主要分为三部分研究内容:(1)网络节点如何相互链接而构成在线社会网络的拓扑结构;(2)网络用户在这样的网络中发布消息的类型;(3)消息是如何在网络拓扑之上传播的。由于在线社会网络发展迅猛,用户规模庞大,因此,认识在线社会网络的结构,实时发现用户发布的消息类型,以及预测消息如何在网络拓扑上传播都成为计算机研究领域的挑战。然而,发现用户是如何链接而构成在线社会网络的拓扑机构成为认识在线社会网络,并进行其他研究的基础。以MySql和Hadoop为基础建立一个海量数据爬取和存储系统,在大约3,000万用户数据的基础之上,通过数据分析和挖掘,从用户特征和网络拓扑特征入手,分析了新浪微博的系统特征,指出新浪微博是一个大尺度,自组织,小世界,不均衡,高动态的网络。新浪微博拥有超过3.5亿的用户,并且用户是通过自组织的方法来构建网络拓扑,因此新浪微博是一个大尺度自组织的网络。同时,测量结果显示用户之间的平均距离在6步左右,显示新浪微博是一个小世界网络。微博用户之间的关注关系变动频繁,用户每天改变2个左右的关注用户,而有些用户的粉丝数目每天变化在3,000左右,显示新浪微博是一个高动态的网络。新浪微博用户在地域/性别分布,粉丝/关注数目分布,相互关注率方面又显示出明显的不均衡特征。依据这些特征,提出把在线社会网络分为两种基本类型:信息驱动型在线社会网络和关系驱动型在线社会网络。结果明确显示新浪微博与Facebook等关系驱动型社会网络不同,同时,在互相关注率等特征方面,新浪微博和Twitter也有较大区别。为了更深刻的理解新浪微博的拓扑结构,识别拓扑结构内部的社区,提出FriendFinder算法。该算法以社会网络中存在的三元闭包理论为基础,使用局部搜索和启发式算法,来识别网络中含有的社区结构。该算法首先利用最大度来寻找两个节点作为初始社区,分析社区的邻居节点集合,把合适的社区邻居节点加入已经存在的社区中,对于新形成的社区,迭代以上规则,直至社区不能再扩大为止,一个社区便形成了。和经典的社区划分算法相比,FriendFinder具有较好的时间复杂度,同时社区识别的准确度较高,并且该算法具有一定的可并行性,能够处理有向和无向网络,同时可以实现快速对网络拓扑结构的划分。在测试中,发现了新浪微博中存在的7个规模较大的社区,包含31,152用户。在新浪微博的网络特征以及社区特征的基础之上,拟合新浪微博网络中用户的关注数目曲线,建立用户关注数目函数。根据新浪微博的特征,使用用户粉丝数目作为标准,把新浪微博网络分为核心网络和外围网络。在核心网络中,128.5万的用户吸引了全网36.71%的关注链接,同时核心用户的关注中57.68%指向核心网络内部。通过分析新浪微博的自组织规则,发现了新浪微博用户的链接机制,提出LinkProbability算法来计算用户的被选择概率,利用真实的新浪微博拓扑特征的参数和新浪微博中关注关系形成的机制,Group-Based演化模型可以用来描述新浪微博的拓扑结构以及演化特征。Group-Based演化模型借鉴经典的演化模型框架,在候选节点集合选择以及候选节点被选择的概率方面使用新浪微博中的用户链接机制,因此能更好的反映新浪微博的拓扑结构。在全面理解和认识新浪微博的拓扑结构和其形成机制的基础之上,不考虑主观因素,仅以新浪微博的拓扑特征为基础,设计WeiRank算法用以量化新浪微博中用户的重要性。WeiRank算法模拟人类社会中存在的投票方法,使用迭代的方法来为每个节点的投票赋予不同的权重,计算每个用户被投票的次数和每次投票的权重来量化不同用户所具有的不同的网络影响力。和HITS以及PageRank等经典排序算法相比,WeiRank算法能更好的对社会网络中的用户进行影响力排序,并完成对新浪微博中粉丝数最多的前150万人进行排序。
其他文献
众所周知,对于空中交通管制部门和机场部门来说,RVR值(跑道视程)是判断是否适合飞行的标准之一。RVR值由多个因素决定:背景灯光亮度,跑道灯光级数,MOR值(气象光学视程)等。其
<正> 随着诊断技术的进步,早期或较早期乳腺癌的发现率逐年有所提高,但晚期乳腺癌(Ⅲ_b、Ⅳ期)就诊者仍占较大比例。其中锁骨上淋巴结有无转移对预后影响甚大。本文对我院收
目的对丙戊酸钠治疗心境障碍-躁狂症的临床疗效进行观察研究。方法抽取2012年2月—2014年2月本院接诊的60例心境障碍躁狂症患者作为研究对象,按照随机数字表法将其分为观察组
为了研究三维对流扩散方程在高雷诺数情况下的合理解法,采用在高雷诺数情况下保持自动迎风与斜迎风特征的27点加权自动迎风格式对方程进行离散,并采用蒙特卡洛法求解;通过与
<正>非洲地区的油气勘探成功率相对较高,勘探成本低于世界其他产油区的平均成本。西非地区的钻井成功率为35%,超过世界平均水平(10%)。20世纪90年代以来,使用深海勘探技术在
<正> 胃癌根治术,合理的淋巴清扫,必须以胃淋巴流向解剖学和与其有关的临床病理学为指导。以往关于胃淋巴流向解剖学的研究基本是以研究静态淋巴经路为主,而胃癌淋巴转移是一
空调结构设计不当会造成量产产品出现严重的振动问题,长期下去,空调结构的损坏严重影响其可靠性和品牌形象。以工程力学和结构动力学理论位基础,在产品的动力学响应分析中引入商
隐喻一直是各科学者研究的热门课题。关于隐喻的理论有很多,如传统的隐喻观将隐喻看作是一种用来装饰语言的可有可无的语言现象,一种文学修辞手段。然而,越来越多关于隐喻的研究
城市交叉口是城市交通拥堵的多发地段,它由连续的交通流和离散的信号灯变化构成。因此,城市交叉口是一个典型的混杂系统。在对混杂系统进行建模方法选取时,由于混杂Petri网(HPN)建
目的:探讨免疫功能正常人原发性颅内B细胞淋巴瘤磁共振(MR)弥散加权成像(DWI)及多体素质子磁共振波谱成像(1 H-MRS)表现及二者的相关性。方法:回顾性分析15例经病理证实的原