密度峰聚类算法优化及其隐私保护研究

来源 :安徽师范大学 | 被引量 : 0次 | 上传用户:realmummy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘可以发现隐藏在大量数据中有价值的模式和知识,聚类分析是数据挖掘领域中的重要研究方法。作为一种无监督学习的数据分析方法,聚类分析通过划分簇使得簇中样本相似度高的同时簇间样本相似度低,已被广泛应用于模式识别、图像处理以及社团检测等领域。聚类分析的过程是对数据的挖掘和再利用,如果这些数据包含敏感信息,一旦被攻击者恶意挖掘,将会对用户个人财产和名誉带来巨大的影响。密度峰聚类算法是一种基于密度的聚类算法,该算法可以发现任意形状的类簇,聚类过程简洁高效,无需迭代。密度峰聚类算法也存在一些不足之处:对输入参数d_c敏感;对剩余样本进行分配很容易形成类似“多米诺骨牌”连带错误效应;密度峰聚类算法在计算样本局部密度和最短距离时可能泄露用户隐私。针对以上问题,本文的主要工作和研究成果如下:(1)针对密度峰聚类算法存在对全局参数d_c敏感,提出了一种基于共享近邻相似度的密度峰聚类算法。首先,该算法结合欧氏距离和共享近邻相似度进行样本局部密度的定义,避免了原始密度峰聚类算法中参数d_c的设置;其次,优化聚类中心的选择过程,能够自适应地进行聚类中心的选择;最后,将样本分配至距其最近并拥有较高密度的样本所在的簇中。实验结果表明,在UCI数据集和模拟数据集上,该算法能有效地提高聚类的准确性和聚类结果的质量。(2)针对密度峰聚类算法仅依赖局部密度对剩余样本进行分配同时容易形成类似“多米诺骨牌效应”的缺陷,提出了一种基于万有引力搜索的密度峰聚类算法。该算法使用密度峰聚类算法进行聚类中心选择,将聚类中心作为初始的粒子群并在万有引力搜索算法框架下进行剩余样本的分配,通过寻找最优解获取最佳的聚类效果。实验结果表明,在UCI数据集和模拟数据集上,该算法能具有较优的聚类效果。(3)针对密度峰聚类算法在计算样本局部密度和最短距离时可能泄露用户隐私的缺陷,提出一种差分隐私保护的密度峰聚类算法。该算法在局部密度和最短距离的计算过程中加入Laplace噪声进行差分隐私保护,同时进行隐私安全分析证明算法满足差分隐私保护。实验结果表明,算法在隐私保护程度和聚类有效性之间取得良好的平衡。
其他文献
鉴于在现行土地征收过程中,失地农民的补偿权得不到有效保护的情形,常常出现受偿主体缺乏监管和补偿内容忽略失地农民发展权的现象。构建土地征收补偿谈判权尤为重要,即通过
以太湖为水源水,利用静态试验的方式,分别研究在预加氯、加氨以及预加氯后加氨三种条件下臭氧氧化对溴酸盐及溴代有机消毒副产物的控制情况。结果表明,在所研究的条件下,最佳
为给适于麦田精量灌溉的新型灌溉设施和方法的研发提供理论依据,于2011-2013年冬小麦生长季,选用高产冬小麦品种济麦22为材料,以全生育期不灌水处理和传统畦灌处理为对照,设
以三元动力电池模组为研究对象,通过研究自然对流、相变材料(Phase Change Materials, PCM)、相变材料/导热翅片3种不同散热技术,分析3种不同热管理系统(Battery Thermal Man
建立有效的客户参与机制能降低服务成本,提高外包服务项目成功率。针对不对称信息下,客户企业参与外包服务生产后,服务商是否会努力工作,以及如何激励服务商努力工作问题,建
论述了大豆多肽的生产和脱苦方法,结合其性质和药理保健等功能对其应用作了简要阐述,进而提出了大豆多肽的开发研究存在的问题和建议。
本文简述氛氧化物对环境的污染,并概述工业上氮氧化物的治理方法。
目的:临床综合分析在肾结石疾病治疗中经皮肾镜取石术(PCNL)与经输尿管软镜取石术(FURL)的临床疗效、安全性。方法:随机性选取2015年1月~2017年6月间收治的54例肾结石患者,根
城市商业银行的经营成本,贯穿于其经营管理工作中的诸多环节。其具体表现形式为:1.资金筹措成本,是指城市商业银行用于组织存款,拆入资金等负债业务的成本,包括利息及用于筹资方面的