论文部分内容阅读
随着互联网和可公开获得数据的增多,数据发布过程中的隐私安全问题受到了前所未有的挑战,攻击者将发布数据和已获得的相关数据进行连接就可能重新识别出某些个体的隐私信息。k-匿名隐私保护模型是数据发布过程中用于防止连接攻击的一种最基本和最重要的保护手段,目前的研究重点已由以k-匿名化方法为中心转向以匿名数据为中心。本文对k-匿名隐私保护模型中与匿名数据相关的准标识符求解、k值优化选择、k-匿名数据生成以及k-匿名数据集的更新维护等一系列关键问题进行了研究,主要研究内容如下。首先,提出了基于超图的准标识符求解方法。准确的准标识符是关系k-匿名隐私保护模型有效性和数据质量的关键因素,过大的准标识符会导致发布数据的过度匿名,过小的准标识符又可能导致k-匿名隐私保护模型失效。将已发布视图集与待发布视图映射为一个超图,从而把寻找相关视图集问题转化为在超图中求解特定结点间的全部通路问题,提出了基于超图的相关视图集求解算法。在此基础上,给出了准标识符求解算法,并对算法进行了正确性证明、时间复杂度分析和实验验证。其次,提出了k取值优化选择方法。平衡隐私保护和数据质量之间的矛盾是隐私保护数据发布技术的关键所在。k-匿名隐私保护模型的k取值同时影响着k-匿名表的隐私保护程度和数据质量。在对k取值和隐私保护、数据质量关系分析和证明的基础上,根据不同情况下的k-匿名表隐私泄露概率公式,对满足隐私保护要求的k取值范围进行了分析;根据k-匿名表数据质量公式对满足数据质量要求的k取值范围进行了分析。根据满足隐私保护和数据质量要求的k取值之间的关系,给出了k值的优化选择算法。最后用实验对算法的正确性进行了证明。再次,给出了能保持数据依赖的匿名数据生成方法。首先,定义了一种新的数据依赖——k重集依赖(K-MSD),证明满足K-MSD的数据集也满足k-匿名约束。当发布数据集上不存在数据依赖时,通过K-MSD-ANONY算法在发布数据集上构造k重集依赖实现k-匿名化。当发布数据集上存在函数依赖或多值依赖时,K-MSD-AG-ANONY算法在构造k重集依赖实现k-匿名化的同时,利用关联泛化来保持属性间原有的函数依赖或多值依赖。最后用实验对K-MSD算法、K-MSD-ANONY算法和现有算法进行了比较。最后,给出了k-匿名数据集的增量更新方法。基础数据库的不断更新要求k-匿名数据集也应同步更新,以保持一致性,在分析了k-匿名数据集对于基础数据库的插入、删除、修改更新操作可能出现的更新反应的基础上,对于基础数据库的不同更新操作,先根据语义贴近度及元组映射等方法对更新元组在k-匿名数据集中进行定位,再对更新元组进行相应的更新操作。最后用实验对增量更新算法进行了验证。