集值数据和社交网络联合发布中隐私保护方法研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:b411574103
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的飞速发展和普遍,各种应用产生了海量数据,比如微信、facebook、购物平台等。数据之间存在潜在的关联关系具有不可估量的社会和经济价值,比如进行群体行为分析,辅助商业决策等多方面的数据应用价值。在发布数据给数据挖掘者时,需要把数据进行隐私保护,因为数据一般都包含许多用户的隐私信息,容易导致隐私信息泄露,所以数据隐私保护就显得尤为重要。近几年,数据隐私保护是热门研究领域,已有不少相关研究成果,但现有的研究主要是针对单类型数据进行隐私保护。在大数据时代,数据的挖掘已经多源化,比如社交网络数据和事务性数据结合挖掘,解决购物推荐系统的冷启动问题等。在多源数据情况下,背景知识增多带来新的隐私问题,现有的隐私保护方法已不适用于多源数据的联合发布。相对关系型数据,集值数据具有高维度、稀疏等特征。关系型数据的隐私保护方法显然对集值数据已不适用,比如用k匿名隐私模型对集值数据进行保护会导致数据的信息损失过大。针对该情况,ρ-不确定性模型能较好地平衡隐私保护和信息损失,近年来也有许多基于ρ-不确定性的集值数据隐私保护的研究成果。社交网络数据方面也有很多数据保护模型,比如k度匿名、l多样性等,这些模型通过增删边或节点来满足隐私要求。这些保护模型能对单类型数据进行保护,但在社会网络数据与集值数据联合发布情况下,背景知识增多,使得受害者信息的泄露概率大于ρ,不符合数据隐私要求。因此,针对社会网络数据与集值数据联合发布,本文提出分组ρ-不确定性隐私保护模型。本文主要工作如下:首先,分析集值数据和社交网络数据现有的隐私保护模型,提出数据联合发布的攻击模型,现有的单数据类型隐私保护模型对该攻击模型已不适用。在集值数据中任意数据项的背景知识情况下,ρ-不确定性模型确保能推断出敏感数据项的概率不超过ρ。该模型在集值数据单独发布情况下是有效的,但与社交网络联合发布情况下,若攻击者还了解受害者在社交应用中有几个朋友,即了解社会网络数据受害者节点的度,则成功推断受害者在集值数据敏感项的概率大于ρ,不满足隐私要求。其次,针对上面的攻击模型,结合ρ-不确定性模型和度匿名模型,本文提出分组ρ-不确定性隐私保护模型。首先,该保护模型需要根据项目属性制定泛化树,比如apple、banana泛化为fruit。然后根据泛化树把集值数据分组,即集值数据中非敏感项目在泛化树中具有相同父节点的记录分为一组。基于ρ-不确定性模型,该模型要求每个分组都满足ρ-不确定性模型,并证明了每个分组满足ρ-不确定性模型情况下,整体的数据也是满足ρ-不确定性模型。最后把社交网络的节点分组(与集值数据的分组一致)并组内匿名处理,使得社交网络的节点在组内具有相同的度数。因此,在上面的背景知识下,攻击受害者的敏感项概率低于ρ,从而达到匿名需求。再次,基于分组ρ-不确定性隐私保护模型,本文还设计了一种隐私保护方算法。为了减少信息损失,提高数据实用性,该算法结合局部泛化和部分删除的方法来处理集值数据。在处理过程中采用自顶向下的局部泛化,当数据不满足隐私需求时,采用部分删除的方法来达到隐私需求。项目向下泛化会减少信息损失,但部分删除会增加损失,故此时要评估泛化前后的信息损失。若泛化后数据的信息损失较少就采用本次泛化,否则拒绝该泛化。在匿名社交网络数据时,为了提高数据实用性,该算法尽量保护社区结构的完整性,即优先删除社区间的边和优先添加社区内的边,减少增删边对社区结构的影响。最后,为了验证算法的实用性,本文从信息损失等方面来评估集值数据的效用性,从杰卡德相似系数等来衡量社交网络数据的效用性,实验结果证表明该算法在保护隐私同时,也有较好的数据实用性。
其他文献
近年来,光纤通信作为一种主要的用来提升通信系统容量需求的技术,已在世界各地广泛的研究和开发。然而,随着互联网,在线游戏等各种数据业务的快速增长,光纤通信系统必须快速
在过去的数十年中,由于智能移动设备和先进移动多媒体服务的广泛应用,用户可以通过社交网络随时随地的上传图像。最近,更多的社交网络不仅收集图像,还收集一些和图像相关的用
本学术论文的目的是把握员工成就认知对员工建言的基础理解,以及雇佣者的认知如何影响员工表达的意愿。本研究的关联性有助于缩小公司内不同层级之间的差距。本研究现实意义
近几年来,随着无线通信技术、微电子技术的不断进步,无线传感网络得到了快速发展。然而,随着越来越多的WSN程序被部署到实际应用中,这些应用也常常因为软件质量问题而产生不
识别场所的个性化语义是普适计算的重要研究方向。现有方法的问题有:1)大多仅考虑场所访问在时间和空间上的信息,未充分利用与场所语义密切相关的情境信息;2)注重整体识别准
如今,人们对无线设备(如传感器,PDA,无线基站等)的需求在迅速增加而其价格在下降。因此,发展无线网络是至关重要的。由于基于IEEE 802.11的无线局域网(WLAN)的普及流行,人们
半监督学习是机器学习中重要的研究方向。众所周知,大量标记样本能够有助于提高学习器性能,但是收集大量标记样本是耗时耗力的,半监督学习能够将少量的有标记样本与大量的无
近年来,移动互联网技术快速发展,渗透到了人们生活的各个方面。移动设备由于其便携性逐渐取代了传统计算机的地位,成为了新的互联网接口,但是移动互联网在迅速发展的同时,信
随着无线通信的发展,频谱资源匮乏问题日益突出。认知无线电(cognitive radio,CR)技术作为解决该问题最有效的手段之一,可以有效提高频谱利用率。在认知无线电中,如何实现次
深度恢复是计算机视觉领域的基本问题,有着广泛的应用。.其中,基于双目相机的立体匹配是最常用的深度恢复方式之一,有着重要的理论研究和实际应用价值。传统的双目立体匹配算