论文部分内容阅读
数据挖掘是从海量数据中挖掘有用知识的一个强有力的工具,可以帮助人们从数据中获取更深层次的有用信息,已经在银行、保险、电信、生物数据分析等领域得到了广泛的应用。随着网络的广泛应用,数据挖掘的过程中经常需要使用来自不同站点的数据,这些不同的机构在进行协同工作完成全局性的数据挖掘过程中,往往希望在不泄露自己隐私数据的前提下,获取共同挖掘的规则结果。因此,研究分布式环境下保护隐私的数据挖掘技术成为了一个很迫切的挑战性的课题。本文主要研究分布式环境下保护隐私的分类数据挖掘,重点研究了保护隐私的分布式C4.5决策树分类算法,本文所作的工作主要有:(1)对应用较为广泛的集中式C4.5决策树分类算法进行了改进,基于安全多方计算理论,设计了适用于数据集垂直分布与水平分布两种情况的可以保护隐私的分布式C4.5决策树分类算法。数据集水平分布时,应用安全多方和协议和安全x ln(x)协议来构造具有保护隐私效果的决策树分类器;数据集垂直分布时,应用安全点积协议和安全x ln(x)协议来构造具有保护隐私效果的决策树分类器;并且分别给出了数据集垂直分布和水平分布两种情况下的用于确定最佳分裂属性的信息增益比例的详细计算方法。(2)提出了一种适用于决策树分类算法的隐私保护程度的计算方法。基于公用数据源在WEKA数据挖掘平台上将设计的保护隐私的分布式C4.5决策树分类算法与原始C4.5算法进行了对比和实验,通过实验分析,证明该算法是可行的。(3)创新性地将安全多方计算方法和K匿名方法相结合,对数据挖掘过程中的个性化隐私保护问题进行了研究。根据不同用户隐私保护需求的不同,将属性分成不同的类,对于隐私保护需求高的属性采用不泄露任何隐私的安全多方计算方法,对于隐私保护需求为中等或低的属性先对其分布式K匿名化,然后再在匿名化后的数据集上进行数据挖掘;最后给出了分布式数据挖掘中个性化隐私保护的挖掘模型。