论文部分内容阅读
随着网络技术以及社交网站的迅速发展,例如Facebook、Twitter、人人网等,通过社交网站进行交友、联系和互动的用户群体数量迅速增加。为了挖掘社会网络中的科研和商业价值,越来越多的研究学者和开发人员将其科学研究和应用开发的注意力集中到社会网络这种虚拟世界当中,社会网络分析已经成为社会学、地理学、经济学、信息学等诸多学科的研究热点。基于社会网络数据进行数据挖掘和分析潜在模式比传统关系数据更加科学、效果更好,然而,社会网络数据中包含敏感隐私信息,因此在数据发布和共享过程中需要对社会网络中的隐私信息进行保护。在社会网络中,隐私信息类型更加广泛,隐私泄露方式呈现多样性,使得防止社会网络中的隐私泄露具有很大挑战。保护社会网络隐私是数据隐私保护领域亟待解决的热点问题,需要针对不同的隐私信息类型和泄露方式来研究相应的保护技术。具体的,本文对多种社会网络隐私保护关键技术进行了深入研究,包括保护结点身份、敏感关系、敏感属性值等多种隐私信息,保持匿名图的数据可用性,本文贡献主要包括以下几个方面:(1)在结点隐私保护方面,研究了攻击者将加权社会网络图中的边权重作为背景知识来发动结点识别攻击、从而导致结点隐私泄露的问题。提出加权图结点隐私保护模型来防止基于边权重的结点识别攻击,并设计了泛化匿名方法(记作GA)来实现加权图结点隐私保护模型。实验结果证明,提出的加权图结点隐私保护模型可以有效地防范针对加权图的结点识别攻击,同时基于匿名图进行采样可以无偏地恢复原图结构性质。(2)在敏感关系隐私保护方面,攻击者可以采用链接推演技术来识别敏感关系,研究了如何阻止链接推演攻击导致的敏感关系隐私泄露。定义了两种链接推演攻击,单步链接推演攻击和级联链接推演攻击。为了阻止链接推演攻击,提出了一种基于链接世系溯源的防推演机制来切断敏感链接的推演路径,并设计了防推演算法,在保护敏感关系的同时保持了图数据可用性。实验结果证明,敏感链接防推演机制可以有效地保护社会网络中的敏感关系隐私,并保持了发布图数据的高可用性。(3)在敏感属性值隐私保护方面,考虑了复杂社会网络中的每个结点包含与之相关的个人信息的情况,研究如何防御社会网络的个人信息隐私泄露。针对此问题,设计了k-混淆(k-obfuscation)模型来保护个人信息隐私,并提出一种安全结点-个人信息映射机制,记作k-映射(k-mapping)。同时,设计了优化技术来提高k-映射的执行效率和数据可用性。通过实验证明,提出的k-映射方法在保护个人信息隐私的同时,降低了匿名过程所导致的个人信息损失、相近信息损失,使得匿名图数据具有高查询准确度。(4)在保持图数据可用性方面,研究了如何在图匿名过程中保持结点间的可达性。提出了可达性保持图匿名化算法(简称RPA算法),RPA算法的基本思想是将结点进行分组并采取贪心策略进行匿名,从而减少匿名过程中的可达性信息损失。为了提高RPA算法的执行效率,首先提出采用可达区间来高效地评估边添加操作所导致的匿名损失;其次,通过构建候选邻居索引,加速了RPA对每个结点的匿名过程。通过大量的实验分析,表明RPA算法生成的匿名图保持了结点间可达性,使得匿名图在可达性查询方面具有很好的数据可用性。(5)实现社会网络数据安全发布原型演示系统SNSPDEMO。SNSPDEMO系统可以针对不同隐私泄露类型对社会网络进行安全性检测,通过图形化接口直观显示存在隐私泄露的结点和边的信息;SNSPDEMO系统整合了本文中的社会网络隐私保护技术,从而生成提供相应隐私保护的安全社会网络图,并通过图形化接口显示系统所做的图修改操作,对比原图与安全图之间的差别。总之,本文从社会网络隐私保护中的潜在威胁和挑战出发,针对社会网络隐私保护的关键技术展开研究,如结点隐私保护、敏感关系隐私保护、敏感属性值隐私保护、保持安全图可用性等,从而为社会网络隐私信息提供更加全面和完善的保护奠定了基础。