论文部分内容阅读
由于数据挖掘是从大量真实数据中提取有价值的知识,在数据挖掘的过程中很可能会引发敏感信息的泄露,这就带来了隐私保护方面的诸多问题。因此,如何在保护隐私的同时得到满意的挖掘结果成为数据挖掘领域的一个焦点,其中倍受关注的分支之一是关联规则挖掘的隐私保护。在关联规则挖掘过程中,某些属性的具体取值或是挖掘获得的关联规则关系到数据提供者的个人隐私,这样的信息是应该受到保护的。
本文分别研究了针对静态数据库和数据流上关联规则挖掘的隐私保护。
在静态数据库关联规则挖掘的隐私保护领域,针对那些侵犯隐私的规则已经提出了一些敏感规则的隐藏方法,但是这些方法并没有把隐藏规则带来的影响以及对规则的恶意重构作为重点考虑。然而这两方面对于最终的挖掘结果和隐私保护策略的有效性都有十分重要的影响。
在数据流上进行数据挖掘隐私保护的工作还很少。由于流数据的特殊性质使得处理流数据成为一项很复杂的工作,因此既要保证满意的挖掘结果,还要考虑隐私保护就给研究工作提出了更大的挑战。
本文的主要贡献和创新总结如下:
·采用减小项集支持度和减小规则置信度两种方法结合使用的策略,对敏感规则进行隐藏。详细分析了数据转换给原始数据集合带来的影响并定义了一个修复参数,用来减小数据转换对数据质量的影响。
·基于对静态数据库数据挖掘隐私保护技术的研究,提出了数据流上关联规则挖掘隐私保护的解决方案。利用一个随机函数对原始数据进行转换,在转换后的数据集上利用支持度恢复算法将项集的近似原始支持度恢复出来,从而达到数据流上隐私保护的关联规则挖掘。
·初步的实验证明了本文提出的两种方法的可行性,有效性和正确性。提出的敏感规则隐藏策略达到了:既不暴露敏感规则,又有效地抑制了挖掘者的恶意重构。针对数据流上关流规则挖掘的隐私保护算法在不显著增加时间空间耗费的前提下,达到了数据流上挖掘关联规则的隐私保护目的,并具有较高的正确性和效率。