集值数据发布中敏感度自适应模型及匿名化方法研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:kaigg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来计算机技术的迅速发展和其在生活中的普遍应用,使得网络中存储了大量的数据。集值数据的典型来源有:超市的购物记录、web查询记录、患者医疗数据等。发布收集到的数据集有重要的意义,例如:企业用于制定有效的销售决策,政府进行舆情监控,医学上研究疾病之间的潜在关联等等。然而这些数据中可能包含了个体的隐私信息,如果将其直接发布,有可能会泄露个体的隐私。简单地删除数据中个体的身份信息并不能达到隐私保护的目的,敏感信息可以通过数据之间的复杂关联性被推断或分析出来,数据的隐私保护涉及数据分析、信息安全和不确定性处理等多种研究领域,集值数据发布的隐私保护问题己经成为当前的一个研究热点。面向集值数据的隐私保护方法最早的有k-匿名模型和基于它的一些扩展模型,后期的ρ-不确定性隐私保护模型,能够从数据集的隐私性和效用性这两个方面更好的符合集值型数据的特点。而ρ-不确定性隐私保护模型中将敏感项目的敏感度均视为同一个敏感等级,要求攻击者根据背景知识推断出个体拥有敏感项目的概率值不能大于p。而针对一些不均匀的数据集,其敏感项目分布极不均匀或敏感项目自身敏感度就有区别的情况下,如果不考虑这些特征,会导致对敏感度较高的项目保护力度不够或对敏感度低的项目造成过保护,使得匿名后数据集的效用性较低。本文主要研究工作如下:首先,提出一种敏感度自适应的不确定性隐私保护方法和模型。该方法根据敏感项目的敏感度不同而自适应制定ρ-不确定性隐私保护模型,考虑了影响项目敏感度的多方面因素,制定出使敏感度不同的项目拥有多样化的隐私阈值ρ。对发布的数据集中能推断出敏感项目的概率值进行弹性控制,提供一种更加灵活、更能应用于具有多种特征的数据集、更能满足个体个性化需求的隐私保护模型。然后,根据提出的隐私方法,采用局部泛化与部分删除相结合的算法来实现整个匿名过程,匿名过程中采用自上而下的启发式算法实现对数据集的分组,根据制定的消除策略,不断地消除各个组内违反了隐私要求的敏感关联规则。匿名过程中采用自上而下的启发式算法实现对数据集的分组,根据制定的消除策略,不断地消除各个组内违反了隐私要求的敏感关联规则,直到使得每个子分组中满足隐私要求,才可将其发布。最后,本文将提出的隐私模型在真实数据集上进行了实验,分别从匿名后的信息损失,数据集的效用性、算法稳定性三个方面对匿名方法进行了评估。实验证明,本文算法不仅可以很好的保证匿名后数据的真实性,并且在保护了数据集中个体隐私信息的同时,能很好的提升数据集的研究价值。
其他文献
基于口令认证的群组密钥协商协议(Password-Authenticated Group Key Exchange Protocol, PAGKE协议)允许群组用户在一个公共网络上使用低熵的容易记忆的口令协商出一个高熵
智能系统是能够理解、学习复杂信息并能做出决策和分析行为的软硬件实体,具备识别对象和事件、存储丰富的可利用知识、推理和预测等基本能力,能够适应复杂环境并能够从环境中获
学位
指纹因其唯一性、可靠性和方便性已经发展成为了主流的生物特征识别手段。指纹识别广泛应用于日常考勤、身份鉴别、数据加密、电子商务、电子政务等系统,为人们的日常生活提
推荐系统通过预测用户对项目的喜好程度来为用户进行信息过滤,应用知识发现技术来生成个性化推荐。协同过滤是一种常用的减少信息过载的技术,已经成为了个性化推荐系统的一种主
随着信息技术的发展,尤其是数据获取技术和数据存储技术的发展,人们几乎可以随时随地获取数量巨大的数据,并存储下来。然而,数据本身的价值有限,如果没有一种有效的工具帮助
近年来,随着互联网的迅速发展,数字多媒体图像出现了飞跃式的增长,海量的图像资源给人类带来了便利同时也带来了挑战,比如,如何准确、高效地从大量图像数据库中检索出所需资
随着Internet和信息技术的不断发展,基于Internet集成和发布企业信息,为企业经营决策提供信息化平台,已成为一种发展趋势。电力系统作为国民经济的关键部门,同样面临着信息集
在数字医学图像研究中,人们经常希望根据医学断层图像恢复出真实三维物体图像,建立虚拟的人体器官和组织,以便进行医学、诊断和放射治疗计划中三维剂量场的计算。然而,由于在
随着信息技术的高速发展,计算机系统已经被广泛的应用于日常生活中的各个方面,比如电话通讯系统、银行系统等。这些系统大部分都需要后台运行的分布式算法来完成一些基本目标
在智能化的背景下,手机、电脑、电视的功能趋于多元,如何充分利用各种智能终端的优势,实现智能终端间的互通互联与资源共享,正成为未来家庭娱乐发展的目标。多屏互动技术正是