论文部分内容阅读
轨迹数据对于智慧城市和“互联网+”建设有着重要作用,然而轨迹中包含了大量的个人隐私,对轨迹数据集的发布进行隐私保护刻不容缓。差分隐私作为一种定义规范、理论基础坚实的新型隐私标准,已逐渐应用到隐私保护的各个领域。现有的差分隐私轨迹数据集发布方法主要针对位置点规模较小的数据集进行保护,且没有考虑位置点的时间属性。对于携带时间属性、位置点规模较大的时空轨迹数据集发布,存在发布效率低,加入噪音数据量大的问题。本文主要针对上述问题,研究位置点的时间属性对差分隐私保护下时空轨迹数据集发布结果可用性的影响,并提出差分隐私时空轨迹数据集混合发布方法(Hybrid Release Method to Spatio-temporal Trajectory Dataset via Differential Privacy,HRST-DP)。主要研究内容如下:(1)提出时空轨迹数据集聚合度的定义来对数据集的稀疏性进行评价,分析时空轨迹数据集聚合度对差分隐私发布结果准确性的影响;提出时空生成轨迹集的定义,并对差分隐私时空轨迹数据集发布问题进行形式化描述。(2)针对原始时空轨迹数据集聚合度低导致发布结果相对误差大的问题,提出时空轨迹数据集聚合算法(Spatio-temporal Trajectory Data Aggregation Algorithm,STAA),STAA算法首先将时空相似的位置点聚合到同一簇中,然后用簇中心点替换轨迹中的原始位置点,间接达到相似轨迹合并的目的,从而提高数据集的聚合度。(3)利用前缀树模型发布最终满足差分隐私的时空轨迹数据集,并针对时空轨迹数据集的高维性导致噪音前缀树中节点多,加入噪音量大的问题,提出基于节点聚合重构的噪音前缀树构建算法(Noise Prefix Tree Build based on Node Aggregation and Reconstruction,PTBAR),PTBAR算法包括节点聚合算法Node-Aggre和节点重构加噪算法Merge-Noise两部分。Node-Aggre对噪音前缀树同一层中分配到相同隐私预算的节点按照计数值进行近似的聚合排序。对于聚合后的树节点,以簇为单位,调用Merge-Noise算法对计数值相似的相邻节点进行合并重构,并对重构后的粗节点添加噪声。Merge-Noise通过多次迭代的方式增加节点合并概率,可有效的减少噪音数据加入量。(4)通过真实轨迹数据集,将本文提出的HRST-DP方法与现有方法进行对比实验,验证STAA算法和PTBAR算法中Node-Aggre、Merge-Noise方法的有效性和可用性。