论文部分内容阅读
随着信息技术和网络的快速发展,越来越多的信息被存储并在网络上发布,这使得信息共享变得更加简单、方便。数据发布作为一种资源共享手段,为数据交换和信息共享提供便利的同时,也会造成个人隐私信息的泄露。虽然数据发布机构通常采取一定的技术手段来删除个人身份标识或某些敏感数据,但这并不能保证个人隐私信息的安全,通过在多个公开数据源间进行链接操作往往会导致意想不到的隐私信息泄露问题。随着人们对隐私信息的保护越来越重视,隐私保护以成为一个热门的研究方向。目前,现有的匿名化技术大多针对具有单一敏感属性的数据,而在现实应用中,发布的数据往往涉及到多个敏感属性,因此,对多敏感属性数据发布中的隐私保护技术的研究具有重要意义。首先,论文研究了现有隐私保护的各种技术手段,重点分析了数据发布中的隐私保护技术,总结出该领域的两大研究热点:匿名模型和匿名化技术。研究了当前常用的匿名模型和匿名化技术,并且通过分析比较,得出了各种匿名模型和匿名化的优缺点。其次,论文对多敏感属性数据发布中的隐私保护技术进行了深入研究,指出了传统的多敏感数据数据发布方法在隐私保护方面存在的不足。针对多维桶分组技术不能抵御背景知识攻击和相似性攻击的缺陷,提出了(l1, l2,…ld)-uniqueness匿名模型,并给出了其相应的匿名化算法。新的匿名模型对各个敏感属性进行单独分组处理,打破了敏感属性间的一一对应关系,可以抵御一定的背景知识攻击;并且在分组的过程中,对同一分组中的敏感属性值的敏感等级提出了要求,可以抵御相似性攻击。采用实际数据集对提出的匿名模型和匿名算法进行了实验分析,实验结果表明,该匿名模型具有较小的信息损失度,并且可以更好的保护个体的隐私信息,提高了数据发布的安全性。最后,论文对多敏感属性数据发布中敏感值分布约束问题进行了研究,提出了基于聚类思想的多敏感属性L-coverage分组方法。新的分组方法在保证数据发布安全性的前提下,能保留尽可能多的可用信息,并采用实际数据集对算法进行的验证分析。