论文部分内容阅读
在科学领域与信息技术不断地迅速进步的近些年来,信息共享与资源互利已经越来越受到人们的各种关注。与此同时,这些信息资源给人们带来各种生活中的好处,也带来了人们隐私数据信息泄露的危险。保护人们的隐私信息问题已经成为大众关注的一个焦点,也是数据发布处理研究中值得研究探讨的一个重要课题。在数据发布过程中,如果仅仅只对可以明确确定用户身份的标识符进行删除或者加密,隐私保护效果并不好,攻击者仍然可以通过利用发布数据集中的准标识符属性与外来数据集合进行联合推演,使用多个数据集的链接操作,从而推算得到个体希望被保护的隐私数据信息。K-匿名化技术是在微数据发布之中一种非常重要的隐私保护方法。可是对于在多属性集合上获取最优K-匿名化是一个NP-难问题,所以对K-匿名化的主要研究集中在:如何使发布数据集合匿名化操作控制在比较合理的时间复杂度之中,同时能够获得较高的匿名化程度。论文全面分析了目前已有的各种K-匿名化算法,并且总结出这些方法所存在的优点和缺点。针对这些问题论文的主要工作如下:①论文提出了多维映射分治的K-匿名化算法。该算法建立了新的多维到单维映射模型,并且记录其中的二种重要信息:在对每个单维进行映射得到的不同单维点的个数Pro以及每个不同单维点所对应的多维点的个数PPA。该算法采用了新的信息依赖量来度量数据信息的变化程度,降低了匿名化后的结果集中信息损失度。该算法可以在多项式的时间复杂度内获得较高匿名化程度,提高了K-匿名化算法的实际应用能力。②论文提出了K-匿名化增量更新策略。对于频繁变动的数据发布过程,该策略使用阀门值来维持数据集的相对稳定。对于增量更新时间,该策略通过对增量数据进行定位操作来实现局部更新方法,降低时间开销。对于信息损失量,该策略考虑到邻居集合中的相似集合对增量数据的信息关联度,把局部更新范围锁定在相似集合之中来来提高结果集的匿名化质量。这样保证了数据集能够在可以接受的更新时间中,重新达到K-匿名化效果。③论文分别在实验数据集合与真实数据集合上进行了多种对比实验来验证算法的可用性和高效性。实验结果表明:多维映射分治的K-匿名化算法可以得到较高的匿名化程度,且时间性能可以接受;提出的增量更新策略对于现在已经存在的技术是高效的,具有较好的数据安全性能。