论文部分内容阅读
数据挖掘技术的发展为机器学习、知识发现提供了新的技术支撑,也在一定程度上对个人隐私带来了相应的威胁。虽然数据拥有者在对数据进行共享和发布前会采取一定的措施来隐藏源数据中的直接标识个人身份的数据信息,研究人员却发现通过链接多个公开的数据源,个人隐私信息还是会发生某种程度的泄漏。为了避免个体的隐私数据受到如前所述的链接攻击,Sweeney提出了k-匿名模型。实验证明k-匿名模型能够有效地解决数据发布与共享中由链接所产生的身份泄漏问题,但同时也发现,k-匿名模型对敏感属性信息还缺乏相应的保护机制。为了更好的发挥k-匿名模型在隐私保护方面的功效,研究人员提出了许多改进的匿名模型与方法,虽然这些方法使得隐私保护效果得到了不同程度的提升,但在实现敏感属性有针对性的个性化隐私保护方面仍存在许多不足之处。在对当前已有的k-匿名算法及模型进行分析和研究的基础上,本文对k-匿名模型进一步做了改进,开发出了一个新的基于个性化隐私保护决策度的k-匿名粒化模型及算法。论文的主要研究内容如下所述:第一,针对现有的匿名化隐私保护技术在进行数据发布和数据共享前欠于考虑敏感属性个性化隐私保护决策度的问题,结合实际应用中不同个体对不同敏感属性或同一敏感属性不同敏感值的隐私保护需求的不同,结合粒计算理论,提出了一种基于个性化敏感属性隐私保护决策度的个性化k-匿名模型即个性粒化k-匿名模型,又可称为( g ,α)k-匿名隐私保护模型。并将该模型应用于含有一维敏感属性的数据发布实例中,实验证明,该模型能有效的提高隐私保护精度,避免了高隐私保护需求的数据出现隐私泄露、低隐私保护需求的数据过分匿名保护的现象。第二,对于含有多维敏感属性的数据,本论文采用多层粒化方法。首先根据待发布数据中的多敏感属性个性化隐私保护决策度的不同进行聚类粒化,使每个粒空间中的数据具有尽可能相似的个性化隐私保护需求。然后再对形成的粒空间中的数据选择相适应的粒化和匿名参数,进行个性粒化k-匿名。文中给出了相应的隐私保护决策度定义和相应的粒化匿名算法。实验结果表明,与传统k-匿名方法相比,该算法能够有效减少数据匿名化处理所带来的信息损失,提高对多敏感属性的匿名化隐私保护精度。第三,给出了实现个性粒化k-匿名的泛化匿名算法,通过分析当前匿名泛化算法的不足,将聚类分析的思想引入到( g ,α)k-匿名模型中,遵循相同粒空间中各元组间的距离尽量小,也就是内部要尽量相似;而不同的粒空间中的元组间距离要尽量大,即外部各粒空间尽量相异的原则,论文重新定义了各种距离计算公式、衡量信息损失的计算公式和相应的聚类粒化的泛化算法,并且对新算法的正确性和算法执行的时间复杂度做了相应的分析,实验结果验证了论文中所提出的个性粒化k-匿名模型及算法是实现个性化隐私保护的一种有效的模型工具。