论文部分内容阅读
随着互联网技术的快速发展,大量社交网站日益兴起。越来越多的信息暴露于网络当中,如果这些数据落到不恰当的人手中,轻则给人们的生活造成困扰,重则造成重大经济利益损失。因此,人们越来越关注自己的隐私是否被有效地保护起来,针对社会网络隐私保护的研究开始成为热点。传统的隐私保护技术一般针对关系型或者表格型数据,其思想已经比较成熟,很多隐私保护方法都得到了成功的应用。例如泛化技术、匿名化技术、随机扰动技术等等。匿名化技术实现起来比较复杂,但是数据利用率高。泛化技术实现简单,隐私保护效果好,但是数据利用率低。随机扰动技术实现方法简单,数据利用率低。对于社会网络隐私保护,由于其数据的独特性,传统的隐私保护技术已不能直接应用到社会网络中,但是其隐私保护的基本思想仍可以借鉴。本论文提出的利用节点拓扑属性向量泛化(即节点拓扑属性向量泛化)方法主要基于两方面的技术:K匿名化技术和泛化技术,该方法的创新之处在于两点。一是利用节点的结构特征(如度信息,最短路径长度等)将节点向量化,为后续聚类做准备。基于顶点的聚类方法,通常考虑节点所代表的个体的信息,如个体年龄、收入、身体状况等信息来聚类。而该方法是利用节点的结构特征,如度、最短路径长度等。二是将K匿名化技术和泛化技术结合起来,提出“先制止”匿名化的方法,保证满足K匿名化。研究隐私保护时,经常要考虑数据利用率和隐私保护程度之间的平衡。本论文利用最短路径调和平均值损失率和度序列损失率(论文中详细介绍)作为评价指标。在进行试验时,利用Pajek生成不同节点个数的随机网络,分别研究节点拓扑属性向量泛化技术中的各个影响因素,如向量化维度的选值、不聚类簇个数、匿名化K值等。最后,分别对两个真实网络NetScience和USAir利用该方法进行隐私保护,试验结果表明,利用该方法泛化网络,最短路径调和平均值损失率和度序列损失率都较小。节点拓扑属性向量进行隐私保护优点在于实现简单,能同时考虑节点的多个属性,隐私保护效果好等;但也存在很多不足的地方,比如聚类簇个数敏感等,值得进一步研究。