论文部分内容阅读
随着近年来计算机技术的迅速发展和其在生活中的普遍应用,使得网络中存储了大量的数据。集值数据的典型来源有:超市的购物记录、web查询记录、患者医疗数据等。发布收集到的数据集有重要的意义,例如:企业用于制定有效的销售决策,政府进行舆情监控,医学上研究疾病之间的潜在关联等等。然而这些数据中可能包含了个体的隐私信息,如果将其直接发布,有可能会泄露个体的隐私。简单地删除数据中个体的身份信息并不能达到隐私保护的目的,敏感信息可以通过数据之间的复杂关联性被推断或分析出来,数据的隐私保护涉及数据分析、信息安全和不确定性处理等多种研究领域,集值数据发布的隐私保护问题己经成为当前的一个研究热点。面向集值数据的隐私保护方法最早的有k-匿名模型和基于它的一些扩展模型,后期的ρ-不确定性隐私保护模型,能够从数据集的隐私性和效用性这两个方面更好的符合集值型数据的特点。而ρ-不确定性隐私保护模型中将敏感项目的敏感度均视为同一个敏感等级,要求攻击者根据背景知识推断出个体拥有敏感项目的概率值不能大于p。而针对一些不均匀的数据集,其敏感项目分布极不均匀或敏感项目自身敏感度就有区别的情况下,如果不考虑这些特征,会导致对敏感度较高的项目保护力度不够或对敏感度低的项目造成过保护,使得匿名后数据集的效用性较低。本文主要研究工作如下:首先,提出一种敏感度自适应的不确定性隐私保护方法和模型。该方法根据敏感项目的敏感度不同而自适应制定ρ-不确定性隐私保护模型,考虑了影响项目敏感度的多方面因素,制定出使敏感度不同的项目拥有多样化的隐私阈值ρ。对发布的数据集中能推断出敏感项目的概率值进行弹性控制,提供一种更加灵活、更能应用于具有多种特征的数据集、更能满足个体个性化需求的隐私保护模型。然后,根据提出的隐私方法,采用局部泛化与部分删除相结合的算法来实现整个匿名过程,匿名过程中采用自上而下的启发式算法实现对数据集的分组,根据制定的消除策略,不断地消除各个组内违反了隐私要求的敏感关联规则。匿名过程中采用自上而下的启发式算法实现对数据集的分组,根据制定的消除策略,不断地消除各个组内违反了隐私要求的敏感关联规则,直到使得每个子分组中满足隐私要求,才可将其发布。最后,本文将提出的隐私模型在真实数据集上进行了实验,分别从匿名后的信息损失,数据集的效用性、算法稳定性三个方面对匿名方法进行了评估。实验证明,本文算法不仅可以很好的保证匿名后数据的真实性,并且在保护了数据集中个体隐私信息的同时,能很好的提升数据集的研究价值。