基于隐私保护的关联规则挖掘算法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:qq447105111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
隐私保护是数据挖掘领域中一个重要的研究课题,其目标是在不泄露隐私信息的前提下,获得精确的挖掘结果。数据挖掘中的隐私保护通常有两种解决途径:安全多方计算和数据扰乱。分布环境下的关联规则挖掘在隐私保护方面已取得一定的研究成果,但其还存在着不足之处,现有的分布环境下关联规则挖掘主要使用的是安全多方计算方法,由于关联规则挖掘包含的一个重要过程是从候选频繁项集空间中通过计算找出支持数不小于给定阈值的频繁项集,而候选频繁项集是海量的,安全多方计算采用安全协议管理这个过程,能够获取精确的结果,但计算每个候选项集的支持数都需要多次加/解密和多次通信,故算法效率低、通信量大;基于扰乱的隐私保护技术是集中式环境下的主要技术,能够快速的实现数据扰乱和重构,但由于对单个属性进行干扰,破坏了属性之间的相关性,导致挖掘精度下降,直接应用于分布式环境会存在安全性和精度不高问题。   针对上述问题,本文的重点是研究一种综合考虑属性之间相关性的新型扰乱方法,并应用于分布式环境下结合安全多方计算尽量高效精确地完成分布式环境下的隐私保护关联规则挖掘。本文主要工作如下:   (1)针对数据垂直分布环境下基于安全多方计算的效率低下问题,提出一种多属性扰乱技术与安全多方计算相结合的方法。首先使用扰乱方法快速估算候选项集的全局支持数,再使用安全多方计算仅对支持数大于给定阈值的候选项集精确计算其全局支持数,从而减少了使用安全协议计算的项集的数目,提高了挖掘效率。使用多属性扰乱策略,能够保持属性之间的相关性。实验结果表明,本方法与安全多方计算相比,精度保持在92%的情况下,挖掘效率提高了68%~90%。   (2)针对数据水平分布环境下基于安全多方计算的效率低下以及传统扰乱方法精度不高问题,提出一种基于事务压缩与安全多方计算相结合的方法。主要思想是将原始联合数据集映射到一个较小的匿名数据集,该匿名数据集与原始联合数据集具有相似的分布特征,包括属性间的相关性。先从匿名数据集中快速估算出全局候选项集的支持数,再使用安全多方计算仅对支持数大于给定阈值的候选项集精确计算其全局支持数,从而提高了挖掘效率。实验结果表明,该算法与安全多方计算相比,精度保持在90%以上的情况下,挖掘效率提高了70%~93%,相比传统扰乱方法,挖掘精度提高了16%~29%。   (3)为了方便用户使用本文所提出的方法开发一些实际的应用,同时为了方便以后的学者测试本文算法,基于以上研究的理论基础,设计并实现了分布式隐私保护关联规则挖掘原型系统,并对系统进行了测试,测试结果表明系统运行良好,达到预期目标。
其他文献
从列车监控视频中自动、准确、快速地检测与定位列车驾驶员,已成为目前相关管理部门规范驾驶员操作行为,保证列车行驶安全的迫切需求。然而,在实际的监控视频中,由于图像分辨
人类的发展离不开海洋。海洋不仅为人类提供了丰富的食物资源,并且还蕴含着大量未开采的矿产和石油。海洋对气候的调节作用,深刻影响着整个地球的生态系统。人类对海洋的不断认
文本特征向量存在相关性大,维数高的特点。支持向量机对于特征相关性问题不敏感,处理高维度问题具有较大优势。Web上不但存在海量文本信息,而且更新速度很快。经典支持向量机
文本相似检测简单地说就是按一定的规则度量两篇文本的相似程度。该技术在机器翻译、自动问答系统、信息检索、文本聚类、网页去重、知识产权保护等领域都有着重要的应用,因
在“节能减源”和“公交优先”的大背景下,越来越多的人选择公交车作为出行的代步工具,然而公交事业中却存在着诸如监控不给力、调度不及时、路况查询不准确等现象。对于公交监
随着水资源管理问题的日益严峻,利用水文模型模拟流域等水循环过程是解决水资源管理问题行之有效的途径。本文借助SWAT模型,以大汶河流域为研究区,采用SUFI-2方法进行参数的
车辆数量的迅猛增长导致交通拥挤甚至交通事故频繁发生,对交通事件进行检测能够有效地解决这一问题,而基于视频的检测方法更是重点研究领域。但是现有视频中存在很多降低检测
数字家庭是指以计算机技术和网络技术为基础,通过多种互连方式将家庭中的各类电器连接在一起,实现设备之间通信及数据交换,以方便人们的生活。然而数字家庭不仅仅是指家电设备,更
最近几年,嵌入式技术在集成电路大规模发展的带动下发展迅速,在工业控制、智能控制、医疗、电子等方面都发挥着重要的作用。近年来,嵌入式产品在医疗卫生方面的应用日渐广泛
图像噪声去除是图像恢复的主要内容之一,其主要任务是去除所观测到图像的噪声部分,从而得到理想的图像。近年来,基于变分方法的图像扩散技术成为图像去噪的主流方法之一。该