结构化隐私数据脱敏方法研究与系统实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sydna521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行为或者状态等隐私信息相关的个人数据不合理使用有可能造成隐私信息泄露,因此如何定义、发现,并对隐私数据进行脱敏是个人数据使用过程中亟需解决的问题。本文总结归纳了结构化数据中隐私信息的存在形式,提出结构化数据中隐私信息识别方法,并对相应数据脱敏技术进行研究,基于Spark平台设计实现了结构化数据脱敏系统。首先,针对隐私信息是如何存在个人数据中这一首要问题,通过分析数据的结构特点以及所假设攻击者背景知识的不同,本文提出三种结构化数据中隐私信息的存在形式:单属性列形式、多属性列形式以及整体形式。其次,针对人工定义隐私信息过于依赖主观经验的问题,对于单属性列形式下的隐私信息提出了基于双布隆过滤器的标识符识别方法;对于多属性列形式下的隐私信息,提出了非频繁属性列挖掘算法。再次,本文对不同隐私信息存在形式下的脱敏技术进行研究。针对单属性列形式,实现掩码等常见的脱敏技术,并对其中的加密和哈希方法进行修改以保证数据完整性。针对多属性列形式,以K-Anonymity为核心,分别对字符串型、数值型以及枚举型属性列分别设计了自动构建泛化层的方法,并在此基础上提出了非全域贪心泛化算法;针对整体形式,利用直方图发布技术以满足差分隐私框架要求的结构化个人数据脱敏处理。对于脱敏后数据有效性损失的衡量问题,提出了四种数据有效性损失衡量手段。最后,根据上述的问题研究设计并实现了结构化隐私数据脱敏系统。考虑所脱敏数据量,本文基于Spark分布式计算平台实现脱敏技术;为了保持脱敏数据的业务属性以及提高脱敏效率,提出脱敏模板的概念并提供了模板管理功能,方便脱敏用户共享脱敏模板以提高脱敏效率和安全性;对其中的敏感信息识别、数据脱敏以及模板管理的功能进行了测试,通过测试表明,系统满足设计目标。
其他文献
采用沉淀法和微波辅助还原法制备了具有高可见光催化活性的Ag/Ag3PO4,并采用X射线衍射、紫外—可见漫反射等手段对材料进行表征。考察了可见光催化降解双酚A(BPA)实验的光源
为了分析黄河三角洲地下水动态及其与地面沉降的关系,利用多年地下水和地面沉降监测数据,发现黄河三角洲广饶县和东营区的地下水动态变化剧烈且地面沉降严重,含水层多处于超
随着信息化时代的到来,互联网对教育领域产生了巨大的影响,慕课(MOOC)这一新型课程走入大众视野,并成为高等教育的一种重要途径和资源。在慕课规模不断扩张的情况下,有必要注
现如今,英语教育跟随当代教育发展的步伐,各个小学从一年级就开设英语课。可见,英语学习的低龄化和重要性。所以,在小学英语教学阶段,通过自然拼读法,可以帮助小学生更好地学
吸气式高超声速飞行器内外流中存在多种形式的激波相互作用,这些激波相互作用通常对飞行器性能和安全性具有至关重要的影响,在飞行器研制过程中需要予以重视。针对二维激波相
"互联网+"时代背景下,传统的营销模式越发难以更好适应消费者需求。在对十堰山区农产品市场营销问题分析的基础上,结合乌蒙山区农产品营销经验,分析了十堰山区农产品精准营销
司法裁判标准的趋同是京津冀协同发展的应有之义,然面对实务中的诸多问题,京津冀法院的裁判标准并不一致,以残疾赔偿金为例,三地法院的裁判差异突出表现在多个伤残等级的赔偿
利用有限元方法对沥青路面加铺沥青层进行热力学分析,研究了加铺路面温度场分布规律,以此为基础进行了温度应力计算,分析各项参数及旧路裂缝对温度应力的影响规律,并对设置3