论文部分内容阅读
随着计算机网络和数据挖掘等信息技术的高速发展,基于科学研究、商业应用和知识发现的数据共享的重要性逐渐地显现出来。但是,共享的数据包含如医疗记录等个体敏感信息,因此,个人隐私就有泄露的危险,如何更好地保护隐私便成为专家学者和信息拥有者关注的问题。k-匿名方法和l-多样性方法是常用的隐私保护方法,简单实用,t-closeness模型阻止隐私泄露的能力比前两者有所增强,得到了广泛的应用和研究。本文在分析研究t-closeness模型和增强型k-匿名技术的基础上,针对t-closeness没有给出具体的算法,且语义隐私不能自定义的不足。提出了(t,a)-closeness方法,即增强型t-closeness隐私保护方法:(1)给出了语义隐私度的度量方法,以a表示语义隐私度,a的计算根据敏感属性值分类的敏感程度,在不同的时期、根据不同的需求,可以自定义属性敏感程度,灵活方便;(2)因为没有具体的算法,t-closeness具有很开放的研究领域和空间,本文给出了两种具体的实现算法,其一,因为自顶向下的方法不会产生信息扭曲,算法采用自顶向下的方法寻找匿名解决方式,满足了(t,a)-closeness要求;其二,分类的过程中产生较少的信息损失,遗传算法按照适者生存和优胜劣汰的原理,逐代演化产生出越来越好的近似解,经过编码、交叉、变异,产生出最优近似解,与经过泛化、抑化逐步产生出符合(t,a)-closeness要求的发布表的过程相似,且能产生较少的信息损失,算法采用基于遗传分类的方法实现。最后,通过实验验证了本文提出的(t,a)-closeness方法的有效性和可行性,其能够增强抵抗相似性攻击的能力,有效地防止了隐私泄露,同时,保证了数据质量的可用性,但是,数据质量的保护力度不足,可以进一步加强。