基于聚类的差分隐私保护的研究

来源 :安徽理工大学 | 被引量 : 0次 | 上传用户:dishunzhaopin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,各种类型数据的收集、存储、分析和发布变得简单便利,信息的传播速度也呈现出一种速度快、形态多、范围广的特性,大数据动和促进社会进步、经济增长的重要力量。然而,隐私信息一旦落入到非法入侵者手中,就可能会导致企业、政府和国家不可估量的损失。因此,在对数据进行发布、分析、挖掘的时候,需对数据进行隐私处理。差分隐私模型作为一种隐私保护的方法,其定义了一种非常严格的以最大背景知识作为它的攻击模型,在强大的背景知识和数学理论的支持下,通过向原始数据集内加入适量噪音参数ε从而进行数据保护。通过分析隐私保护数据挖掘技术(PPDM)——差分隐私保护下的传统K-means聚类算法可知,在聚类过程中隐私泄露的关键点在于无法正确的选择适合的聚类中心点进行隐私保护,由于数据集进行聚类划分时对选择聚簇点的要求不高,只通过聚类中心点的随机位置对数据进行保护,虽然这种传统的保护技术对数据安全性而言有一定的保护,但是,其聚类过程中初始点和中心点的选择具有一定的随意性和局限性,不仅降低了聚类的精确度和可用性,同时也使差分隐私模型的加噪结果失真。本文研究的主要内容是基于差分隐私保护下的聚类算法的改进,研究目的是在满足差分隐私保护的前提下,实现聚类算法的高可用性与高精确性。本文针对以上问题开展以下研究工作:(1)从K-means算法的聚类效果和初始中心选择角度,给出一种基于K-modes的K均值聚类改进算法,针对传统K-means算法中的不足,在初始点的选取上利用K模式算法中众数的思想,将每个点中属性值与簇中心属性值进行做差比较,得到当前属性值相差最多的数据作为初始点。除初始点外的其他数据点通过K-means算法距离公式欧式距离找到当前点到原簇中心点的最短距离,重新得到划分簇群。由于在初始点和聚类距离方面进行了算法改进,该算法提高了聚类算法的的聚类精度和效果。(2)针对于传统差分隐私K-means算法的不足与缺陷,本文设想给出一种基于K模型的K均值聚类算法差分隐私保护模型。传统的差分隐私K-means算法在数据集各中心点内加噪,可能会造成在迭代过程中其中心点偏差值会随着迭代次数的增加导致偏差越来越大,从而会导致聚类准确性无法达到更高的层次。因此考虑在添加Laplace噪声方式上进行改进,通过数据样本距中心点的距离情况,获得数据样本中敏感属性的具体位置来改变加入噪音的顺序。(3)通过三组对比实验,从以下三个评价标准进行评价:聚类效果、F-measure以及加聚类收敛速度情况进行对比分析,仿真实验表明在聚类效果、聚类精度和时间复杂度方面相较于前人提出的相关方法有明显的优势。图[12]表[7]参[52]
其他文献
JT科技股份有限公司是一家专业从事可再生能源综合利用及相关节能技术开发与应用的企业,其核心技术为非清洁水源热泵系统。经过多年的发展,JT公司产品技术已全面覆盖各种不同
面对因全球城市化而产生的生态环境破坏、地域特色消失、城市无限蔓延等问题,我国积极推行“美丽中国”建设。尽管如此,我国风景规划管理存在的不均衡性与割裂性仍旧难以消除
随着我国城市化水平不断提升,汽车数量逐渐增加,为改善交通状况,共享单车与共享汽车应运而生。我国共享汽车发展属于起步阶段,因此在发展过程中遇到一些阻碍因素,例如用户对
城市轨道在面对高峰时刻大量的通勤客流时,有可能因地铁已满负荷行驶乘客而等待下一车辆,由此产生轨道站点候车时间。基于此,提出了一种基于地铁IC卡数据来计算高峰时期乘客
对于由Brown运动驱动的随机微分方程,Yamada-Watanabe给出的强解存在唯一性定理是随机微分方程理论的一个基本定理,它描述了方程的强解与弱解之间的相互关系。在此基础上,Che
<正>巴斯夫Elastolit■聚氨酯(PU)创新材料解决方案为中国部署5G网络提供助力。安徽汇科恒远复合材料有限公司(以下简称"汇科")采用Elastolit■制成60座通信塔,
为进一步明确玉米花生宽幅间作稳粮增油模式下玉米的氮素吸收分配规律及其与单作的差异。本试验在玉米单作、玉米花生行比2∶4间作种植模式下,均设置施氮、不施氮两个处理,研
黄连是一种常用中药材,具有清热燥湿,泻火解毒等作用。黄连的主要成分为小檗碱,在传统炮炙过程中,因加热程度的不同,有不同程度的破坏,其抗菌作用也随小檗碱的含量减少而减
地温是影响气候变化的一个非常重要的指标,地温的改变不仅会使区域气候发生改变,而且对大气环流也会产生一定的影响。同时地温也是土壤主要的物理性质之一,除了影响种子的萌
本文从薄板大挠度弯曲问题基本理论出发,依据改进的移动最小二乘近似和Galerkin全局弱式无网格方法的基本思想,形成了改进的Galerkin无网格(IEFG)方法,并应用到薄板大挠度弯