论文部分内容阅读
近几年来,随着数据库技术和网络技术的发展,许多领域都积累了大量的数据。巨增的数据背后蕴藏着丰富的知识,如何从这些数据中提取出对决策有价值的知识,成为人们关注的焦点。数据挖掘作为一个强有力的数据分析工具,可以发现数据中潜在的模式和规律,在许多领域做出了巨大的贡献,具有广泛的应用前景。数据挖掘技术带来巨大利益的同时,由于被挖掘的资料或数据包含着许多个人的隐私信息,例如:病人的病情信息、顾客的喜好、个人背景资料等,这些信息一旦被泄露会给个人带来很大危害。如果把这些数据库的真实数据直接交给挖掘者,难免会产生隐私信息泄露。随着数据挖掘技术应用领域不断深入,隐私泄露问题越来越严重,引起业界和社会各方面的广泛关注。因此,如何在隐私保护条件下进行数据挖掘成了数据挖掘领域的研究热点之一,隐私保护数据挖掘(PPDM)也随之产生。分类数据挖掘是数据挖掘的主要类型,决策树是分类挖掘最常用的分类器,所以采用决策树分类的隐私保护分类数据挖掘方法已经成为近年来数据挖掘领域的研究热点。目前,隐私保护分类数据挖掘采用修改数据的方法很多,随机扰动技术是比较常用的一种,它可以不改变原数据本质特征。但现有的隐私保护分类数据挖掘方法有很多缺陷,如:适用的数据类型有限、随机扰动后会产生隐私破坏、重建原数据分布的错误率较高、隐私保护度低或挖掘精度低等。针对这些缺陷,提出一种隐私保护分类数据挖掘的方法,该方法利用随机扰动矩阵对数据进行转变,通过由单属性随机扰动矩阵生成的多属性联合随机扰动矩阵和转变后的数据集来重建原数据分布。为使其适应于多种数据类型,对原始数据集的每个属性的不同值编码;给每个属性都选择一个随机扰动矩阵,增加了隐私保护度,而且在选择随机扰动矩阵时,引入r-amplifying方法防止数据转换后隐私破坏;引入矩阵条件数,降低了重建原数据分布的错误率,提高了挖掘的精度。