论文部分内容阅读
网络是表达多种类型数据的强大工具,任何存在关联关系的数据集合都可以表示为网络,例如通信网络、交通网络、电力网络、社交网络、科学引文网络等。随着信息技术以及数据采集技术的快速发展,网络数据的规模呈现爆发式增长,网络数据的挖掘处理越来越成为许多重要应用的基础与核心。然而,与传统数据不同的是,网络数据具有内在的关联性、规律性。面向数据开放共享的发展趋势,恶意攻击者可以利用网络数据内在的关联性、规律性推理发现数据产生者的敏感信息,从而对用户隐私造成了极大的威胁,也阻碍网络大数据的共享与利用。因此,如何在进行网络数据共享利用的同时,有效防止敏感关系推理攻击产生的隐私威胁,已经成为当前工业界和学术界普遍关心的问题。面对以上矛盾,本文提出抗推理攻击的网络结构规律性调控问题,通过网络数据的关键链路识别和网络结构调控灵活改变网络数据内在的结构模式,从而改变网络数据结构关系的可推理性,达到网络敏感关系隐私保护的目的。具体来说,本文将从网络结构的内在规律性入手,建立集网络结构建模、网络规律性度量和网络结构调控为一体的系统性调控框架。同时,本文将针对网络链路中心性度量问题展开深入研究。主要研究工作总结如下:1.针对大数据分析背景下,各项数据挖掘任务在有效推动数据分析应用发展的同时,可能引发的数据隐私泄露问题,本文设计了一种以抗推理攻击为目标的网络结构规律性调控方案。首先,由于网络的微观结构元素识别是实现网络结构调控的关键基础,本文利用不同角度的链路中心性度量方法识别网络中的重要链路。其次,在网络重要链路识别的基础上,设计合理的网络结构规律性调控机制(Network Regularity Regulation)。最后,围绕调控行为对网络结构规律性产生的影响,本文提出基于低秩稀疏理论的网络结构规律性度量方法,并结合各种网络结构的预测推理方法,形成了网络结构规律性调控的评价体系。2.针对已有的链路中心性度量方法对关键链路的识别存在局限性,进而影响网络结构调控效果的问题,本文设计了一种基于随机行走的网络链路重要性度量算法。首先,基于随机行走的思想,提出带间接跳跃重启机制(Random Walk with Indirect Jumps)。然后,在网络结构规律性研究基础上,提出基于间接重启跳跃机制的网络链路重要性度量(Link Importance Measuring)算法。最后,借助于网络结构调控方案,对本文提出的网络链路重要性度量算法进行验证分析。本论文使用人工、真实网络数据集验证所提出的方案及算法。实验证明了网络结构规律性调控对于抗推理攻击隐私保护的可行性,证明了基于随机行走的网络链路重要性度量算法对于网络中关键链路识别的有效性。