论文部分内容阅读
信息技术发展十分迅猛,对各种产业都产生了巨大的影响。各行各业都广泛收集了海量的数据。这些数据中蕴涵大量有用的信息和知识。为从这些收集的数据中获取有用的信息和知识,数据所有人无法避免会发布包含个人信息的数据。这些数据中很可能有适合直接发布的个人隐私信息,未经处理的数据直接发布后将侵犯个人的隐私。因此,怎样发布既真实有效又能保护个人的隐私信息不被泄露的数据成为需要解决的重要问题。传统的匿名算法都是把数据表所有的属性统一处理,采用相同的匿名强度实现k-划分。但是对于高维数据表,传统匿名方法会损失大量信息。本文考虑不同的准标识符属性对敏感属性产生的影响程度是不同的,即重要度不同。因此,本文提出一种基于粗糙集理论的维度划分匿名规则,根据准标识符属性重要度的差别,对准标识符属性进行智能划分。再根据划分结果,对不同的划分进行不同层次的匿名化操作。大量的数据匿名化方法是基于泛化技术。泛化技术在处理高维数据时,会使得数据缺损巨大,实用性低。微聚集算法利用聚类的思想,简单有效。尤其在处理连续型数据时,能保持更多的语义,有着独特的优势。但是微聚集算法主要是针对连续型数据集。本文对其进行改进,提出了面向分类型数据和混合型数据的度量距离公式,并基于其设计了不同的微聚集匿算法,使得能够较好地处理分类型数据集及混合型数据集。本文研究了匿名化后数据的可用性评估模型,并且针对分类型数据,应用粗糙集理论,提出了一种评估数据可用性的模型最后,在通用数据集上进行测试与比较表明:在保证具有相同程度的隐私保护的前提下,本文所提出的改进方法比经典匿名规则具有信息损失量更少,即有效地实现了在保证隐私的基础下提高了数据的可用性。