论文部分内容阅读
随着信息化时代的快速发展,数据挖掘技术在人类生活中被广泛应用。数据挖掘即从微数据中提取隐含的、未知的和潜在有用的数据信息,进行数据发布和共享,为各种组织机构之间的科学研究工作提供极大便利。同时,由于人们对自身隐私的关注度不断提高,数据发布不仅要保证数据的可用性和实时性,而且要避免个体受到泄露隐私的危害。通过对现有众多隐私保护匿名模型的研究分析,发现已有的匿名模型大多都忽略敏感属性值之间的语义相似度,会遭受相似性攻击,导致隐私泄露,威胁个体安全。因此,本文针对现有匿名模型存在的不足展开了一系列的探究,具体工作为:(1)提出(p,k,d)-匿名模型,该模型能够防止敏感属性受到相似性攻击。由于Sensitivep-k-匿名模型不涉及敏感值的语义分析,容易遭受相似攻击,本文给出一种能够避免敏感属性相似性攻击的保护方法来解决存在的问题。提出的新模型是在发布表里任一等价类符合k-匿名的基础上,通过d来约束敏感值的语义相异程度,用p来控制每个等价类中敏感值满足d-相异程度的个数,使同一类内敏感值具有明显的差异性,减少隐私泄露风险。同时为提高数据质量,该模型采用基于距离的度量方法划分等价类。(2)提出面向多维敏感属性相似性攻击的(l,m,ε)-匿名模型,其中m为敏感属性的维数。现有的匿名模型大多面向单一的敏感属性,并且不能直接适用于多维敏感属性上,但是发布的数据中往往含有多个敏感属性,多维敏感属性相似性攻击问题也大量存在。为解决这个问题,在上一个工作的基础上,提出(l,m,ε)-匿名模型,该模型能够灵活设置每一维敏感属性的d-相异程度,然后计算出m维敏感属性的综合相异程度e,使发布表中每个等价类在敏感属性上至少存在l个满足综合相异度为e-相异的敏感值,抵制相似性攻击。为实现该算法采用KACA聚类方法生成等价类,提高数据可用性。本文研究隐私保护匿名技术,对现有匿名模型进行了详细分析和改进,通过实验结果分析证明:本文算法能够有效抵制敏感属性相似性攻击,并且在隐私保护程度和数据可用性上都有显著提高。