【摘 要】
:
随着大数据相关产业的发展,数据分析广泛应用于数字医疗、位置服务、社交网络等领域。k-means算法作为一种常用的数据分析方法,发布的聚类质心点和簇内样本数容易导致样本数据的隐私泄露。差分隐私作为一种新型的基于数据扰动的隐私模型,能在最坏的攻击情境下提供可证明的隐私保障。因此,针对差分隐私k-means聚类算法开展研究是一项具有重要意义的工作。首先,针对DPLloyd算法的初始质心选取问题,本文提出
论文部分内容阅读
随着大数据相关产业的发展,数据分析广泛应用于数字医疗、位置服务、社交网络等领域。k-means算法作为一种常用的数据分析方法,发布的聚类质心点和簇内样本数容易导致样本数据的隐私泄露。差分隐私作为一种新型的基于数据扰动的隐私模型,能在最坏的攻击情境下提供可证明的隐私保障。因此,针对差分隐私k-means聚类算法开展研究是一项具有重要意义的工作。首先,针对DPLloyd算法的初始质心选取问题,本文提出了一种基于网格划分选取初始质心的方法。该方法利用了数据集的空间分布信息,避免了选取初始质心的主观性和随机性。通过采用S1数据集进行验证,在总隐私预算较大时,基于网格划分的初始质心选取方法较显著的改善了DPLloyd算法不收敛的问题。其次,针对DPLloyd算法的隐私预算分配问题,本文给出了一种Taylor级数形式的隐私预算分配方案。该方案在总隐私预算一定的条件下,单轮的隐私预算随着迭代次数的增加而增大,从而提升了较后轮次的聚类质量。通过采用S1数据集进行验证,在总隐私预算较小时,相比平均隐私预算分配方案,Taylor级数形式的隐私预算分配方案能较大地减小评价指标NICV的值。最后,本文设计了基于质心加噪的DPCenk-means算法和基于和函数加噪的DPSumk-means算法,在理论上证明了两种算法均满足差分隐私定义。通过采用Iris、S1、Adult、3D Road Network数据集进行验证,在初始质心选取方案和隐私预算分配方案相同的条件下,DPCenk-means和DPSumk-means算法的聚类效果优于DPLloyd算法。
其他文献
双调和方程是一个典型的四阶偏微分方程,是弹性薄板、生物物理等领域的重要偏微分方程模型,其高效数值求解一直是相关领域研究的热点和难点.间断有限元方法因其高可塑性和适应性已成为求解各类偏微分方程和实际问题的重要数值方法.本文针对双调和方程,通过引入中间变量将双调和方程降阶变为两个椭圆方程,基于椭圆方程的内罚间断有限元离散格式给出双调和方程的内罚间断有限元离散格式.其次,基于椭圆方程的离散格式提出一个梯
随着高新技术特别是微电子、光电子等产业的飞速发展,聚酰亚胺(PI)材料越来越受到广泛的关注和应用,市场对PI的性能的要求也在不断提高。而传统的PI薄膜因其较高的透明性而对底层电路的遮盖力较小,在集成电路等电子工业方面的应用受到了限制。因此,能保持优异的综合性能且具有不透明、低可见光透过率的黑色PI薄膜受到了人们的青睐。本文通过设计、合成了具有大平面结构的吲哚酮二胺,研究了由该二胺制备的均聚型黑色P
混凝土拌合物的凝固特性影响后续结构建造及结构质量,混凝土的初凝时间决定了混凝土的触变极限,在实际施工中非常重要。当前检测混凝土初凝时间的方法主要是现场依靠施工人员经验和实验室里进行的贯入阻力实验。声波检测技术是无损检测技术中的一种,由于其具有精度高、操作快捷的特性而在实际工程中被广泛使用。本文根据混凝土中水泥水化导致的声波参数变化,将声波无损检测技术应用到混凝土拌合物水化凝固过程中,建立初凝前不同
杭州市在实施创新驱动发展中,把培育发展生态型组织作为构建城市创新系统的重要举措,推动创新经济组织形式实现"单个企业→供应链→创新生态系统"演变,而良好的城市创新生态系统是促进优质要素集聚、生态型组织涌现的基础条件和重要载体
多群辐射扩散方程组有着广泛的应用.该方程组具有时空多尺度性且数十个物理量之间存在复杂多变的非线性强间断耦合等特性,导致其数值求解通常是众多多物理耦合应用数值模拟中最耗时的部分之一.本文针对多群辐射扩散方程组的全耦合隐式单元中心型有限体积格式,聚焦于发展和研究其大规模稀疏线性系统的高效代数多重网格(AMG)块型预条件子.所涉及的系数矩阵均可重排成(+2)×(+2)块结构,其中是能群个数.预条件子包括
空间站载荷机柜是维持空间站系统运行、航天员日常生活、以及大量空间实验正常开展的重要载体。作为空间站等大型航天器内部重要组成部分,载荷机柜为各载荷单元提供了标准的机、电、热和环境接口,确保载荷单元的可靠工作,而在其操作界面上布置的大量操纵器,是航天员操控机柜进行相关实验、维持空间站正常运行的重要媒介。但在中国“天宫”空间站即将建成前,其上部署的载荷机柜大多从功能、结构层面上进行设计研究,机柜界面尚且
Allen-Cahn方程是相场方法或扩散界面方法中的一个基本方程,用于解决流体动力学、材料科学、图像处理和生物学等各种应用中产生的移动界面问题和自由边界问题.本文针对Allen-Cahn方程修正Crank-Nicolson内罚间断有限元方法导出误差能量范数意义下的重构型后验误差估计.由于本文主要关注椭圆部分的后验误差估计,所以首先对Allen-Cahn方程对应的二阶非线性椭圆方程进行后验误差估计分
脉冲延迟微分方程在众多科学与工程领域有广泛应用,其数值方法的研究具有毋庸置疑的重要性.本文针对一类脉冲延迟微分方程研究了hp-Legendre-Gauss配置法的收敛性.首先将Legendre-Gauss配置法用于求解一类脉冲延迟微分方程,误差分析表明方法是收敛的并具有谱精度,但收敛性条件与方程本身息息相关,无法改善,具有较大的局限性.因此将方法加以改进,得到求解问题的hp-Legendre-Ga
气助带式吸附分离方法将带式吸附与气浮技术耦合起来,可有效解决吸附分离过程难以连续和难以应用于悬浮液体系的瓶颈问题。前期本课题组已建立了该方法并将其成功用于染料悬浮废水的处理。本文进一步以重金属铜离子废水为处理对象,将低成本的生物质和高效的纳米颗粒作为吸附基材,设计并制备了两种新型高效的带式吸附剂:生物质膜基带式吸附剂和纳米颗粒负载型带式吸附剂,并开展了此两种带式吸附剂的气助带式吸附对废水中铜离子的