论文部分内容阅读
近些年来,随着数据库技术和网络技术的发展,计算机数据存储功能不断进步,数据挖掘作为一个强有力的数据分析工具,在许多领域做出了巨大的贡献,具有广阔的应用前景。不断出现的各种数据挖掘算法指出,越来越多的信息可以从社会组织中直接获得,因此个人、企业或者事业单位之间的隐私安全保护问题显得日益重要。目前,在数据挖掘中,隐私保护最常见的是数据扰动方法。相对于传统的方法,基于统计学、数据分区以及关联规则下的扰动是一种十分高效的方法,可以较好的保护个人数据的隐私。本文针对数据挖掘中的隐私保护问题,基于数据扰动的思想方法,分别在决策树、分区环境和关联规则等三个方面进行了分析和研究,对保障用户的隐私保护需求给出了合理的解决方案。本论文的主要研究内容包括:(1)在扰动方法基础上提出隐私保护挖掘的层级分类,对目前隐私保护数据挖掘的各项技术进行系统分类,总结了基于扰动方法下的隐私保护算法的基本思想和原理,并对这些隐私保护方法从实用性、难易程度等方面进行分析评估。(2)在决策树方法研究的基础上,利用决策树结构特点与扰动算法的两种基本方法相结合,提出了针对决策树结构属性的扰动方法和决策树降级方法。在此基础上给出两个实例论证我们的方法的有效性。(3)通过对原始数据库进行分区的方法,结合扰动思想对原始数据进行隐私保护,研究了以kd扰动树为基础的对于分区扰动方法,并对这种方法进行分析和风险评估。(4)以关联规则理论为基础研究了数据挖掘中对信息的规则隐私保护方法,并通过基于关联规则的两个扰动算法展开讨论,初步研究了关联规则扰动方法在保护隐私方面的应用问题。