论文部分内容阅读
数据挖掘可以从海量的数据中提取隐藏的、有用的数据,为商业、医学研究等做出了重要贡献。近年来数据挖掘技术发展迅速,应用广泛,大量如消费记录、病历记录等私有信息被收集和分析。如何在保护隐私的前提下进行数据挖掘成为数据挖掘领域的一个很有意义的研究热点。 随着网络、数字存储技术的迅速发展,数据呈现出海量化和分布式存储等特点,分布式数据挖掘变得越来越普遍。关联规则挖掘是数据挖掘应用最广泛的方法之一,本文针对分布式环境,以保护隐私数据的同时提高算法的准确性和高效性为目的,对关联规则挖掘算法展开了研究。 本文的主要工作包括: (1)介绍了分布式环境下隐私保护的关联规则挖掘算法的国内外研究现状及数据挖掘、关联规则挖掘领域的基本理论,分析了当前经典的分布式关联规则算法,归纳总结了数据挖掘中的隐私保护技术。 (2)针对水平分布式环境,提出一种改进的隐私保护的关联规则挖掘算法。该算法使用部分隐藏的随机化干扰方法对各站点持有的数据进行隐藏与扰乱,采用项集位运算计算项集局部支持数,结合部分隐藏的随机化回答方法和同态加密机制,计算全局支持数。 (3)针对垂直分布式环境,设计了一个利用加法同态加密算法安全多方计算项集全局支持度协议SMISGSP,该协议使用部分隐藏的随机化回答方法对各站点持有的数据进行隐藏与扰乱,利用Paillier算法的加法同态特性计算扰乱后的项集全局支持数,并重构项集原始支持数。最后,结合DMA算法,提出了一种改进的垂直分布式的隐私保护的关联规则挖掘算法EP-VDMA。 (4)对本文设计的两个算法进行了实验,实验结果表明这些算法具有较好的准确性、高效性和隐私保护性。 论文的创新性包括: (1)提出了一种改进的数据水平分布的隐私保护的关联规则挖掘算法,该算法提高了项集局部支持度的计算效率和项集全局支持度计算的安全性。 (2)提出了一种基于安全多方计算项集全局支持度协议SMISGSP的改进的数据垂直分布的隐私保护关联规则挖掘算法,该算法提高了项集全局支持度的计算效率及其安全性。