论文部分内容阅读
近年来,随着社会的快速发展,尤其是社交平台的兴起,越来越多的用户加入到线上社交平台,使得社会网络数据量迅猛增加,不但方便了个人及团体更好的进行交流,也方便相关科研机构对社会网络进行更细致的研究分析。但是,有些数据却不能直接提供给相关科研人员使用,因为数据中可能包含一些敏感信息,比如姓名、用户关系、工资等。如果直接对原始数据发布,有可能泄露用户隐私。因此我们在发布数据前必须对相应敏感数据进行隐私保护处理,但是这些隐私保护策略可能会很大程度上修改原始社会网络中的结构信息。因此,如何在数据的隐私保护和数据的效用性取得平衡是社会网络的一个热点问题。目前的社会网络数据发布方法主要是给定一个原始社会网络图,进行相应的隐私匿名保护后,直接发布。但是忽略了如下问题:(一)仅仅考虑隐私安全,没有考虑到社会网络图的信息改变量;(二)原始社会网络图中可能包含各个子社区,没有对相应的子社区的隐私安全做详细的考虑。以上两点使数据的实用性降低。发布的社会网络图越精细对于相关的社会网络分析者越有利,本文通过社区检测算法对划分后的子社区结构(结点的度)做相应的隐私保护分析,对面向社区检测的社会网络隐私保护做相应的研究。本文的主要工作如下:首先,通过分析当前的社会网络隐私保护方法,发现其不足。本文使用社会网络结构(结点的度)作为攻击者背景知识,传统的k度匿名方法以及随机化方法在隐私保护的过程中没有充分考虑原始社会网络的结构图,以及原始社会网络图中存在多个子社区,一些边的连接关系可以分为子社区内部的连接,子社区之间的连接。在进行隐私保护的过程中,可能会破坏原始社会网络的结构,比如一些社会网络结点的添加删除或者边的添加删除。在k度匿名以及随机化的过程中,可能会产生很多的不确定图,破坏了数据的实用性。其次,对于上述两种传统方法存在的不足,本文提出了一种新的保护子社区结构信息的局部随机化扰动方法。在该方法中:首先基于社区检测过程中,记录边介数。当社区检测完成之后,根据攻击者的背景知识(结点的度),判断是否有隐私泄露,如果没有,说明该子社区不存在隐私泄露问题,不做处理;如果有隐私泄露,判断隐私泄露结点所连接的边是否都在子社区内部,如果是社区内部的边,属于社区内的隐私泄露,则等概率删除或者添加边,运用随机化进行扰动;如果隐私泄露的结点所连接的边与另一个社区相连,说明该结点存在边介数,调整边介数被删除的概率,使其被删除的概率增大,然后在子社区间进行随机化处理操作。通过该方法,很大程度上保证了社会网络图的原始面貌,对于任意的子社区,在保证隐私要求的前提下,该子社区社会网络结构也得到了更好的保证,方便相关科研人员对发布的社会网络图进行相关的研究分析。最后,我们使用真实的数据集来验证本文所提方法的可行性和效用性,用此方法在保证隐私安全的同时可以更好的保证社会网络的结构特征。