论文部分内容阅读
随着社会生活的信息化的程度不断提高,每天的生活和生产中都在不断的产生大量的数据,现在已经进入了大数据的时代。数据作为一种资产,对它的存储和使用对未来的生产和生活拥有巨大的意义。近年来云计算技术和基于位置服务技术都得到了长足发展。云计算是大数据的有效支撑,它为大数据提供了基础设施,大数据需要弹性的计算环境,而云计算可以快速、自动地进行扩展以支持移动大数据环境下移动数据流查询处理的对规模动态变化、响应时间、处理能力等方面的需求;基于位置的服务在人们的生活中逐渐丰富起来,人们对个人隐私也是更加的注重。然而,目前面向隐私保护程度与服务的可用性之间还存在鸿沟,因此本文展开针对CPIR算法和云平台的相关研究,提出了基于Spark的隐私查询保护的相关算法并对其进行了优化。针对传统的CPIR隐私查询保护算法需要对整个数据空间进行扫描,因计算量大而不适用于大规模数据的隐私保护的问题,本文提出了基于Spark并行计算框架的分组范围查询隐私保护、PCPIR-V最近邻隐私查询和PCPIR-V缓存优化查询三种算法。(1)范围隐私查询算法将查询范围的网格划分到不同的分组从而减小了计算量,在此基础上基于Spark对分组进行并行计算,提高了范围查询的效率;实验显示基于分组的范围隐私查询算法相对于朴素的范围查询算法在客户端计算代价、通信代价方面均有所降低,在服务端查询时间有了两个数量级的提升;(2)PCPIR-V实现了基于Row和Bit的两种并行策略,针对基于Row的并行策略在网格划分较少的情况下性能降低的问题,进一步提出了基于Bit的并行策略。PCPIR-V针对朴素CPIR-V算法均有很大的提升,实验结果显示PCPIR-V算法比CPIR-V算法服务端查询时间上有了一个数量级的提升,但是在网格划分过少的情况下存在计算分配不均的问题,基于Bit的并行策略相对行的并行策略在网格划分较少的情况有了很大的提高;(3)PCPIR-V缓存优化算法实现了一种计算共享的方法,这种算法首先将数据进行聚类,再将每一类内的数据划分成(共享差,共享基)的二元组,之后首先对二元组中共享基进行CPIR计算,再利用共享基对数据进行计算,从而实现了计算的共享。实验显示,PCPIR-V缓存优化算法相比于PCPIR-V算法有了大致20%的性能提升。尽管PCPIR-V算法提高了 CPIR的性能问题,但由于CPIR需要对整个数据空间进行扫描,而k-匿名隐私保护算法仅对部分数据空间进行扫描,但是需要一个可信的第三方服务器。在海量数据的今天,对所有的数据进行CPIR计算也是不现实的,因此本文将CPIR-V与k-匿名思想相结合,提出了KB-CPIR算法。KB-CPIR算法结合了k匿名的思想,首先使用基于计算和映射的分片策略对时空信息的CPIR矩阵进行分片,之后只对部分分片组成的CPIR矩阵基于Spark进行并行计算。通过对合成数据的对比试验分析得出,在不同数据量规模下,KB-CPIR相对PCPIR-V算法在服务端有了最高5倍的性能提升。