论文部分内容阅读
隐私保护是数据挖掘领域中一个重要的研究课题,其目标是在不泄露隐私信息的前提下,获得精确的挖掘结果。数据挖掘中的隐私保护通常有两种解决途径:安全多方计算和数据扰乱。分布环境下的关联规则挖掘在隐私保护方面已取得一定的研究成果,但其还存在着不足之处,现有的分布环境下关联规则挖掘主要使用的是安全多方计算方法,由于关联规则挖掘包含的一个重要过程是从候选频繁项集空间中通过计算找出支持数不小于给定阈值的频繁项集,而候选频繁项集是海量的,安全多方计算采用安全协议管理这个过程,能够获取精确的结果,但计算每个候选项集的支持数都需要多次加/解密和多次通信,故算法效率低、通信量大;基于扰乱的隐私保护技术是集中式环境下的主要技术,能够快速的实现数据扰乱和重构,但由于对单个属性进行干扰,破坏了属性之间的相关性,导致挖掘精度下降,直接应用于分布式环境会存在安全性和精度不高问题。
针对上述问题,本文的重点是研究一种综合考虑属性之间相关性的新型扰乱方法,并应用于分布式环境下结合安全多方计算尽量高效精确地完成分布式环境下的隐私保护关联规则挖掘。本文主要工作如下:
(1)针对数据垂直分布环境下基于安全多方计算的效率低下问题,提出一种多属性扰乱技术与安全多方计算相结合的方法。首先使用扰乱方法快速估算候选项集的全局支持数,再使用安全多方计算仅对支持数大于给定阈值的候选项集精确计算其全局支持数,从而减少了使用安全协议计算的项集的数目,提高了挖掘效率。使用多属性扰乱策略,能够保持属性之间的相关性。实验结果表明,本方法与安全多方计算相比,精度保持在92%的情况下,挖掘效率提高了68%~90%。
(2)针对数据水平分布环境下基于安全多方计算的效率低下以及传统扰乱方法精度不高问题,提出一种基于事务压缩与安全多方计算相结合的方法。主要思想是将原始联合数据集映射到一个较小的匿名数据集,该匿名数据集与原始联合数据集具有相似的分布特征,包括属性间的相关性。先从匿名数据集中快速估算出全局候选项集的支持数,再使用安全多方计算仅对支持数大于给定阈值的候选项集精确计算其全局支持数,从而提高了挖掘效率。实验结果表明,该算法与安全多方计算相比,精度保持在90%以上的情况下,挖掘效率提高了70%~93%,相比传统扰乱方法,挖掘精度提高了16%~29%。
(3)为了方便用户使用本文所提出的方法开发一些实际的应用,同时为了方便以后的学者测试本文算法,基于以上研究的理论基础,设计并实现了分布式隐私保护关联规则挖掘原型系统,并对系统进行了测试,测试结果表明系统运行良好,达到预期目标。