论文部分内容阅读
随着信息技术的高速发展,大量用户数据生成并被积累,成为备受瞩目的资源,如今许多热门应用都是基于用户数据的个性化、智能化服务,因此针对高维数据使用中的隐私保护成为研究热点。差分隐私凭借其可以抵御背景无关知识攻击和可量化隐私保护水平的优点在业界得到广泛认可,成为隐私保护的一个实际标准。我们也看到,虽然差分隐私可以有效地处理简单的关系数据,但是针对复杂高维数据的差分隐私发布还存在诸多挑战。目前研究重点是在保护差分隐私的前提下,通过降低数据维数,简化属性之间的关系,使得发布数据具有可接受的准确性和可用性。本文研究高维数据差分隐私发布中的问题,将具体应用中的问题抽象为计算概率模型中变量的概率分布,提出基于概率图模型的高维数据差分隐私发布方法。针对高维数据差分隐私发布中数据空间比较稀疏、计算复杂度高,以及属性之间关系复杂和无法定向的问题,提出基于马尔可夫网的高维数据差分隐私发布的方法。具体利用概率图模型中的马尔可夫模型表示属性之间的依赖关系,然后结合图形近似推理算法计算差分隐私保护下的高维数据集的分布情况。由于实际生活中变量之间的关系存在无向和有向两种关系,使用马尔可夫网模型仅仅解决了无向关系问题,所以提出使用链图模型细化不同属性之间的复杂关系,确定属性之间的关系是相互依赖的无向关系,还是有向因果关系,然后对不同关系进行分类处理,从而进一步提高数据的准确性,扩展了算法的使用范围。在真实数据集上的一系列实验表明,本文提出的基于马尔可夫网和链图的两种概率图模型高维数据差分隐私发布方法,与其他满足差分隐私的高维数据发布方法相比,较好地保存了高维数据中的有效信息,在保证差分隐私保护的前提下,使得发布的合成数据集具有更高的可用性。