基于K-匿名的隐私保护算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:bdysh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代迅速发展的今天,越来越多的数据被人们所共享使用,与此同时对于被发布数据的隐私保护也越来越受到人们的重视,因此,在发布数据的时候,我们既要保护这些数据中的隐私,同时也要尽量保证这些数据的完整性以供人们使用。一种叫做K-匿名的方法被提出来,这种方法通过对原始数据进行泛化或者抑制使其形成容量至少为K的簇,从而使得每条元组与至少其他K-1条记录不能够相区别。K-匿名方法简单易懂,并且易于实现,能够在保护病人隐私的同时,有效减少信息的损失量。K-匿名算法中的一种比较高效的算法叫做最优格匿名算法(Optimal Lattice Anonymization简称OLA),此算法使用一种叫做格(Lattice)的结构,通过遍历此结构中的节点从而最后得到最优结果,然而OLA算法的遍历节点顺序并不能够最大程度上减少需要计算的Lattice节点的数量,这增加了算法的运行时间,同时由于源数据中孤立数据的存在,使得一次全局K-匿名算法处理后的数据并不能够在信息损失量上达到很好的效果。本文的工作是对OLA算法从以上两个方面做了改进,从而使得算法达到更好的效果,以下三点工作的前两点是针对减少算法运行时间来对算法进行改进的,最后一点是针对减少信息损失量来对算法进行改进的。1.针对OLA算法中Lattice节点遍历顺序的问题,我们提出了根据节点的度的乘积来对需要进行计算的节点进行排序的方法,实验表明这种方法能够在一定程度上减少计算K-匿名节点的数量从而减少算法运行时间。2.针对需要计算的Lattice节点的数量,我们运用K匿名的子集性质对OLA算法进行改进,改进后的方法能够在判断每个非匿名节点之后标记(去除)更多的非匿名节点,从而减少计算K-匿名节点的数量。3. OLA算法在信息损失量上并不能够达到令人满意的效果,原因是被处理数据中存在着孤立数据,我们采取二次K-匿名的方法对数据进行分块,从而将孤立数据和非孤立数据分离,然后在非孤立数据上再次运行K-匿名算法,最后将两块数据的信息损失量相加。结果表明,这种方法的信息损失量能够大量减少。
其他文献
在现代激烈的市场竞争环境中,培训成为了企业适应不断变化和日趋复杂环境过程中日益重要的核心职能,培训工作的质量,越来越直接影响到企业的运行品质,员工培训成为企业中不可
污水,通常指受一定污染的、来自生活和生产的废弃水。污水主要有生活污水,工业废水和初期雨水。污水的主要污染物有病原体污染物,耗氧污染物,植物营养物,有毒污染物等。
营商环境的好坏,直接影响着企业经营的经济效益和投融资活动,也决定了人才、技术等生产要素的流向与集聚。以诚实守信理念为价值内核,以约束失信行为要旨,实现社会公序良俗为
根据非比例阻尼隔震结构的动力特性,提出了非比例阻尼隔震结构平扭耦联振动的运动方程.分析了地震作用下,非比例阻尼隔震结构平扭耦联振动反应,并讨论了隔震层和上部结构的偏心及
文章针对中国石油装备的技术问题,首先对中国各种海洋石油装备的技术现状进行了深入分析,在此基础上,对石油装备面临的技术问题进行深入探讨。根据目前中国海洋石油装备面临
我国水稻的种植实力一直居于全世界前列,自从袁隆平发明了杂交水稻,我国水稻种植就一直受到世界的关注。仍然要说的是,水稻产量提高了,但是水稻的种植技术,以及栽培都存在问题,也时
针对中小跨度门式刚架,结合实际工程,运用有限元理论及有限元分析软件ANSYS参数化建模(APDL)对门式刚架结构进行了大量算例分析,结构优化数学建模并进行结构非线性分析,以门