论文部分内容阅读
在大数据时代,各种类型数据的收集、存储、分析和发布变得简单便利,信息的传播速度也呈现出一种速度快、形态多、范围广的特性,大数据动和促进社会进步、经济增长的重要力量。然而,隐私信息一旦落入到非法入侵者手中,就可能会导致企业、政府和国家不可估量的损失。因此,在对数据进行发布、分析、挖掘的时候,需对数据进行隐私处理。差分隐私模型作为一种隐私保护的方法,其定义了一种非常严格的以最大背景知识作为它的攻击模型,在强大的背景知识和数学理论的支持下,通过向原始数据集内加入适量噪音参数ε从而进行数据保护。通过分析隐私保护数据挖掘技术(PPDM)——差分隐私保护下的传统K-means聚类算法可知,在聚类过程中隐私泄露的关键点在于无法正确的选择适合的聚类中心点进行隐私保护,由于数据集进行聚类划分时对选择聚簇点的要求不高,只通过聚类中心点的随机位置对数据进行保护,虽然这种传统的保护技术对数据安全性而言有一定的保护,但是,其聚类过程中初始点和中心点的选择具有一定的随意性和局限性,不仅降低了聚类的精确度和可用性,同时也使差分隐私模型的加噪结果失真。本文研究的主要内容是基于差分隐私保护下的聚类算法的改进,研究目的是在满足差分隐私保护的前提下,实现聚类算法的高可用性与高精确性。本文针对以上问题开展以下研究工作:(1)从K-means算法的聚类效果和初始中心选择角度,给出一种基于K-modes的K均值聚类改进算法,针对传统K-means算法中的不足,在初始点的选取上利用K模式算法中众数的思想,将每个点中属性值与簇中心属性值进行做差比较,得到当前属性值相差最多的数据作为初始点。除初始点外的其他数据点通过K-means算法距离公式欧式距离找到当前点到原簇中心点的最短距离,重新得到划分簇群。由于在初始点和聚类距离方面进行了算法改进,该算法提高了聚类算法的的聚类精度和效果。(2)针对于传统差分隐私K-means算法的不足与缺陷,本文设想给出一种基于K模型的K均值聚类算法差分隐私保护模型。传统的差分隐私K-means算法在数据集各中心点内加噪,可能会造成在迭代过程中其中心点偏差值会随着迭代次数的增加导致偏差越来越大,从而会导致聚类准确性无法达到更高的层次。因此考虑在添加Laplace噪声方式上进行改进,通过数据样本距中心点的距离情况,获得数据样本中敏感属性的具体位置来改变加入噪音的顺序。(3)通过三组对比实验,从以下三个评价标准进行评价:聚类效果、F-measure以及加聚类收敛速度情况进行对比分析,仿真实验表明在聚类效果、聚类精度和时间复杂度方面相较于前人提出的相关方法有明显的优势。图[12]表[7]参[52]