论文部分内容阅读
行为或者状态等隐私信息相关的个人数据不合理使用有可能造成隐私信息泄露,因此如何定义、发现,并对隐私数据进行脱敏是个人数据使用过程中亟需解决的问题。本文总结归纳了结构化数据中隐私信息的存在形式,提出结构化数据中隐私信息识别方法,并对相应数据脱敏技术进行研究,基于Spark平台设计实现了结构化数据脱敏系统。首先,针对隐私信息是如何存在个人数据中这一首要问题,通过分析数据的结构特点以及所假设攻击者背景知识的不同,本文提出三种结构化数据中隐私信息的存在形式:单属性列形式、多属性列形式以及整体形式。其次,针对人工定义隐私信息过于依赖主观经验的问题,对于单属性列形式下的隐私信息提出了基于双布隆过滤器的标识符识别方法;对于多属性列形式下的隐私信息,提出了非频繁属性列挖掘算法。再次,本文对不同隐私信息存在形式下的脱敏技术进行研究。针对单属性列形式,实现掩码等常见的脱敏技术,并对其中的加密和哈希方法进行修改以保证数据完整性。针对多属性列形式,以K-Anonymity为核心,分别对字符串型、数值型以及枚举型属性列分别设计了自动构建泛化层的方法,并在此基础上提出了非全域贪心泛化算法;针对整体形式,利用直方图发布技术以满足差分隐私框架要求的结构化个人数据脱敏处理。对于脱敏后数据有效性损失的衡量问题,提出了四种数据有效性损失衡量手段。最后,根据上述的问题研究设计并实现了结构化隐私数据脱敏系统。考虑所脱敏数据量,本文基于Spark分布式计算平台实现脱敏技术;为了保持脱敏数据的业务属性以及提高脱敏效率,提出脱敏模板的概念并提供了模板管理功能,方便脱敏用户共享脱敏模板以提高脱敏效率和安全性;对其中的敏感信息识别、数据脱敏以及模板管理的功能进行了测试,通过测试表明,系统满足设计目标。