论文部分内容阅读
随着网络的飞速发展和普遍,各种应用产生了海量数据,比如微信、facebook、购物平台等。数据之间存在潜在的关联关系具有不可估量的社会和经济价值,比如进行群体行为分析,辅助商业决策等多方面的数据应用价值。在发布数据给数据挖掘者时,需要把数据进行隐私保护,因为数据一般都包含许多用户的隐私信息,容易导致隐私信息泄露,所以数据隐私保护就显得尤为重要。近几年,数据隐私保护是热门研究领域,已有不少相关研究成果,但现有的研究主要是针对单类型数据进行隐私保护。在大数据时代,数据的挖掘已经多源化,比如社交网络数据和事务性数据结合挖掘,解决购物推荐系统的冷启动问题等。在多源数据情况下,背景知识增多带来新的隐私问题,现有的隐私保护方法已不适用于多源数据的联合发布。相对关系型数据,集值数据具有高维度、稀疏等特征。关系型数据的隐私保护方法显然对集值数据已不适用,比如用k匿名隐私模型对集值数据进行保护会导致数据的信息损失过大。针对该情况,ρ-不确定性模型能较好地平衡隐私保护和信息损失,近年来也有许多基于ρ-不确定性的集值数据隐私保护的研究成果。社交网络数据方面也有很多数据保护模型,比如k度匿名、l多样性等,这些模型通过增删边或节点来满足隐私要求。这些保护模型能对单类型数据进行保护,但在社会网络数据与集值数据联合发布情况下,背景知识增多,使得受害者信息的泄露概率大于ρ,不符合数据隐私要求。因此,针对社会网络数据与集值数据联合发布,本文提出分组ρ-不确定性隐私保护模型。本文主要工作如下:首先,分析集值数据和社交网络数据现有的隐私保护模型,提出数据联合发布的攻击模型,现有的单数据类型隐私保护模型对该攻击模型已不适用。在集值数据中任意数据项的背景知识情况下,ρ-不确定性模型确保能推断出敏感数据项的概率不超过ρ。该模型在集值数据单独发布情况下是有效的,但与社交网络联合发布情况下,若攻击者还了解受害者在社交应用中有几个朋友,即了解社会网络数据受害者节点的度,则成功推断受害者在集值数据敏感项的概率大于ρ,不满足隐私要求。其次,针对上面的攻击模型,结合ρ-不确定性模型和度匿名模型,本文提出分组ρ-不确定性隐私保护模型。首先,该保护模型需要根据项目属性制定泛化树,比如apple、banana泛化为fruit。然后根据泛化树把集值数据分组,即集值数据中非敏感项目在泛化树中具有相同父节点的记录分为一组。基于ρ-不确定性模型,该模型要求每个分组都满足ρ-不确定性模型,并证明了每个分组满足ρ-不确定性模型情况下,整体的数据也是满足ρ-不确定性模型。最后把社交网络的节点分组(与集值数据的分组一致)并组内匿名处理,使得社交网络的节点在组内具有相同的度数。因此,在上面的背景知识下,攻击受害者的敏感项概率低于ρ,从而达到匿名需求。再次,基于分组ρ-不确定性隐私保护模型,本文还设计了一种隐私保护方算法。为了减少信息损失,提高数据实用性,该算法结合局部泛化和部分删除的方法来处理集值数据。在处理过程中采用自顶向下的局部泛化,当数据不满足隐私需求时,采用部分删除的方法来达到隐私需求。项目向下泛化会减少信息损失,但部分删除会增加损失,故此时要评估泛化前后的信息损失。若泛化后数据的信息损失较少就采用本次泛化,否则拒绝该泛化。在匿名社交网络数据时,为了提高数据实用性,该算法尽量保护社区结构的完整性,即优先删除社区间的边和优先添加社区内的边,减少增删边对社区结构的影响。最后,为了验证算法的实用性,本文从信息损失等方面来评估集值数据的效用性,从杰卡德相似系数等来衡量社交网络数据的效用性,实验结果证表明该算法在保护隐私同时,也有较好的数据实用性。