论文部分内容阅读
当今人类社会已步入信息时代,各种信息技术取得长足发展,产生了大量的数据,而大量数据的收集与共享给人们带来了极大的便利。数据发布技术作为数据共享的一种有效手段,为数据的交换和共享提供了强有力的支持。然而,随着数据发布技术的不断发展以及在人们工作和生活中越来越广泛的应用,隐私信息泄漏问题也日益突出。如何有效避免隐私信息的泄露成为数据发布技术面临的重大挑战,隐私保护数据发布匿名技术正是在这种情况下被提出来。作为一种数据发布阶段的隐私保护技术,匿名技术因其原理简单并且易于实现,一经提出便得到了研究者们的广泛关注和极大的研究热情。本文的主要内容及贡献包括:(1)针对近年来几起严重的隐私信息泄露事件,本文对隐私保护匿名技术的研究现状从微数据、社会网络和超图三个方面,分别进行了详细总结。其次,本文详细阐述了针对隐私信息的多种攻击方式以及隐私保护数据发布的多种匿名化技术。再者,本文详细介绍了的k-匿名模型的运行机制,指出了该模型的优点与不足,并对信息损失度量进行了说明。此外,本文还对多种典型的改进匿名模型进行介绍,并对多种匿名模型可以抵御的攻击方式做了相应总结。(2)针对含有多维数值型敏感属性的微数据发布,本文提出了MNSAGM匿名模型及算法。该模型基于k-匿名模型,首先将每一维的数值敏感属性值分别进行近似组划分,并且可以通过设置不同的阈值e进行调节。其次构建多维桶,选取恰当的记录组成记录组。最后将每个记录组中的准标识符进行泛化,得到匿名数据表。实验结果表明,该算法可以有效抵御针对含有多维数值型敏感属性数据的近似攻击。(3)针对超图的隐私保护数据发布。本文首先介绍了超图的相关知识,并且基于超图的无符号拉普拉斯矩阵提出了超图拉普拉斯序列集的概念。然后指出超图的拉普拉斯序列攻击可以导致身份信息泄露的问题。最后为了应对超图的拉普拉斯序列攻击,本文提出了匿名拉普拉斯序列超图的概念以及可以抵御该攻击的匿名模型。为了实现该模型,本文提出了一个两步近似算法:第一步是对超图的拉普拉斯序列进行匿名化处理,第二步是根据拉普拉斯序列集构建新的超图。实验结果表明,该算法可以有效抵御超图的拉普拉斯序列攻击。