论文部分内容阅读
数据挖掘,作为一种能够帮助人们从大量数据中提取或“挖掘”有用信息的强有力的技术,已经被应用到众多的领域,如金融、电信、零售业、科技,甚至国家安全领域等。然而,在得益于数据挖掘技术提供的服务的同时,用户的隐私和数据安全正在受到威胁。特别是,随着经济全球化的发展,数据越来越多地分布存储在多个地方,而且数据挖掘任务也越来越需要有着竞争关系的多个参与方之间通过合作去完成。当然,在这合作的过程中,任何参与挖掘任务的一方都不想泄露自己的隐私或敏感信息。因此,在分布式合作环境下保护隐私的数据挖掘的实现就显得尤为重要。
1982年由姚期智提出的安全多方计算技术能够保证参与合作计算的各个参与方在不泄露各自隐私的情况下,获得正确的计算结果,而这一点恰恰满足了分布式数据挖掘中隐私保护的要求,所以本文将结合安全多方计算的技术来探讨保护隐私的数据挖掘的实现,主要的研究成果包括:
1.在聚类分析应用方面,细致分析了一种基于密度分布函数的DENCLUE聚类算法中涉及隐私保护的各个部分的安全性计算,在这基础上给出了数据在水平划分下和垂直划分下的保护隐私的DENCLUE协议的实现,其中针对垂直划分下两方和多方的不同情形给予了不同的实现。
2.在离群点检测应用方面,讨论了两种不同类别的离群点检测算法的隐私保护的实现。一种是基于偏差的离群点检测,介绍了能在线性时间内完成的顺序异常检测技术,并给出了其在数据水平划分下隐私保护的实现;另一种是基于距离的离群点检测,实现了其在数据垂直划分下两方和多方情况下的隐私保护。
3.在数据挖掘预处理应用方面,探讨了保护隐私的基于粗糙集的属性约简问题的求解,给出了其在数据水平划分下和垂直划分下的解决方案。
本文对实现的各种保护隐私的数据挖掘协议的安全性、时间复杂度和通讯复杂度都给予了详细的分析。