论文部分内容阅读
分布式或网格环境中隐私保护数据挖掘是近年来的一个热点研究问题。分布式环境中,与传统的集中式数据挖掘不同,隐私保护的数据挖掘需要解决如下矛盾:一方面,各数据持有方都希望保持自己的私有数据不为其他任何一方所知;另一方面,它们又希望通过合作获得全局数据模型。因此,需要研究新的算法使得各方在不共享原始数据的情况下进行正确的数据挖掘,称为隐私保护数据挖掘(Privacy-Preserving Data Mining,简称PPDM)。
本文首先结合数据分布方式、数据修改方式、数据挖掘算法、数据或规则保护和隐私保护技术五个角度,分析了当前流行的隐私保护数据挖掘方法。
然后文章针对数据挖掘中应用较为广泛的序贯模式挖掘问题,提出隐私保护序贯模式挖掘算法,不同的数据分布方式,需要不同的解决方法。主要工作包括:
(1)针对数据水平分布的情况,提出了水平分布数据的隐私保护序贯模式挖掘算法。其中包括全局候选频繁项收集协议以及候选项支持度收集协议。全局候选频繁项收集协议主要采用了可交换加密方式来最小化信息共享,保护单个站点的局部频繁候选项集信息,同时在数据挖掘和处理上增加的系统开销非常小;候选项支持度收集协议主要采用了安全和技术,来保护单个站点上候选项集的支持度信息。从理论分析上了协议的隐私保护性,通过实验证明协议是高效可行的。
(2)针对数据垂直分布的情况,提出了垂直分布数据的隐私保护序贯模式挖掘算法。其中包括安全两方交易时间比较协议以及安全两方点积协议。安全两方交易时间比较协议主要采用了同态加密技术,在不泄露数据具体值的情况下,完成项集发生时间先后的比较;安全两方点积协议同样采用了同态加密技术,在不泄露各自具体向量值的情况下,完成点积计算。从理论上分析了所提出协议的正确性和隐私保护性,直接运行点积协议花费的时间比较多,接着提出了几种优化技术来改进协议的性能,通过实验分析了改进后的点积协议是高效可行的。