论文部分内容阅读
互联网和信息技术的快速发展促生了许多新的产业和服务应用模式,如社交网络、共享单车、滴滴打车、互联网医疗等。通过大规模地采集用户的相关信息,这些新型信息系统能利用大数据分析技术为用户提供精准化、个性化和多样化的服务。但是,这些采集的信息中往往含有大量的用户敏感信息,如兴趣偏好、运动轨迹、消费习惯、健康记录等等,对这些信息的发布和分析会给用户隐私带来极大的威胁。如何在保护用户隐私的前提下安全地发布和挖掘这些数据是充分发挥其潜在价值所需解决的核心关键问题。差分隐私技术克服了传统隐私保护模型的诸多缺陷,已成为统计数据隐私保护领域事实上的标准,并在传统数据分析领域得到了广泛应用,但在图数据领域却鲜有研究。本文围绕社交网络等新型信息系统产生的敏感图数据的安全发布问题,研究了差分隐私约束下的图数据统计特征发布和图生成模型构建,并取得以下成果:1.针对点差分隐私约束下图的度分布发布算法具有高敏感度的问题,提出了一种基于度排序的边移除(SER)投影方法,在降低敏感度的同时保留了原始图中更多的边,减小了投影图和原始图之间的误差;基于SER投影方法提出了两种度分布的直方图发布机制,并在理论上证明了这两种度分布发布机制满足点差分隐私的定义;仿真实验表明所提出的基于SER投影方法的度分布直方图发布机制在提供同等隐私保护水平的条件下,更好地刻画了真实数据的度分布,提高了发布数据的可用性。2.针对实际应用中图数据规模随时间动态增长的问题,首先提出了一种改进的SER算法,使其能避免用原始SER算法对同一图进行多次投影后结果图不一致的问题,并在此基础上提出了一种点差分隐私约束下的增量图度直方图发布方法(SER-continual);理论分析表明该方法严格满足点差分隐私的定义;仿真实验表明,对于给定的隐私预算,所提SERcontinual方法有效降低了发布后增量图直方图分布与真实分布之间的误差,同时避免了计算资源的浪费。3.针对非交互模式下的图数据安全发布问题,通过限制随机相应概率的取值,给出了一种优化后的随机响应算法(ORR),进而在此基础上通过结合经典差分隐私、安全多方计算和本地化差分隐私提出了一种差分隐私约束下的合成图生成方法(LDPGM),并从理论上证明了其满足差分隐私和本地化差分隐私的定义;仿真实验表明所提差分隐私约束下的生成图方法很好地刻画了真实数据的度分布和聚类性质,同时有效降低了生成图的误差提高了基于生成图的数据分析结果的精度。