论文部分内容阅读
随着信息时代的高速发展,云计算在学习、生活和工作中的应用越来越广泛,云计算的出现为用户节省了大量的成本和精力,已被认为是新型计算机网络体系中的关键内容。但云计算在安全方面并没有与应用方面的飞速发展完全同步,到目前为止,云计算安全方面还存在着不少安全问题、安全威胁需要面对和解决,特别是在隐私保护方面,个人的隐私是每一个人最重要的信息,是受到法律保护的,但云计算在隐私保护方面做的并不完善,隐私信息泄露事件层出不穷,给人们的生活带来了很大的威胁。本文首先介绍了云计算的相关背景知识,对云计算的基础定义、发展历程和云计算的特点以及目前云计算环境中所存在的一些安全威胁,尤其是云计算隐私保护方面的安全威胁,展开了研究分析。通过对几种传统的隐私保护方案进行分析比对,指出虽然这些方法能够在一定程度上解决隐私保护问题,但是随着数据挖掘技术的进一步提高,从网络中获取数据的方法越来越多,越来越容易,通过链接攻击等攻击方式,用户的隐私信息仍然有可能遭到泄露。为了能够减少链接攻击对用户隐私造成的损害,本文着重对k-匿名算法进行了研究与改进。K-匿名算法基本上能够满足在云计算环境中的数据发布过程中对隐私保护的要求。因此将k-匿名算法应用在云计算隐私保护之中,具有特别重要的意义。在k-匿名保护模型中,实现k-匿名技术的两种方法就是,泛化和隐匿。在数据表的匿名化过程中,会对数据表中的数据质量造成一定量的损失,在这样的情况下,用户的隐私信息才有可能得到保护。所以说匿名表的隐私保护程度和匿名表中的数据质量是两个相互对立,相互矛盾的个体,二者不可兼得,为了使得到的匿名表具有更高的实用价值,如何在隐私保护程度和数据质量这两者之间找到中间节点是k-匿名算法的关键。其中最重要的就是k的取值优化问题,如果k的取值过大,会造成无法弥补数据质量的损失;如果k的取值过小,则会导致k-匿名保护模型无法提供足够的隐私保护来保护客户的隐私信息,k-匿名隐私保护模型就会变的毫无意义。因此,k的取值优化问题是关于k-匿名表是否可用的关键所在,对k-匿名隐私保护模型的实际应用有着重要意义。本文的重点工作就是对k-匿名算法中的k值进行优化,使得用户隐私信息进行匿名化处理之后的匿名表能够有效的保证用户隐私安全的同时,也能保障用户的数据质量没有太大的损失。为了能够得到合适的k值对原始数据表进行匿名化,首要的一点就是找到满足所有条件的k的取值范围,如何找到k的取值范围是本文研究的重点。首先,对k值的变化和匿名表的隐私保护程度发生改变之间的关系进行了理论研究和实验分析,根据匿名表的隐私保护阈值提出了一个关于k的约束不等式。随后,对k值的不同和匿名表中数据质量变化之间的关系进行理论研究和实验分析,根据匿名表的数据质量阈值提出了另外一个关于k的约束不等式,根据这两个约束不等式,可以得到满足要求的k的取值范围,利用k的集合中的值对数据表进行匿名化处理,能够有效的保证用户隐私安全的同时,也能保障用户的数据质量没有太大的损失。最后依照用户的不同要求,计算选择最优的k值进行匿名化处理,最终能够得到满足用户需求的匿名表。