论文部分内容阅读
随着移动互联网的高速发展,互联网已经成为人们日常生活,企业正常运转等必不可少的通讯方式,绝大多数的数据都要通过互联网传输。这些数据涉及到各个方面,如教育、金融、医学、电力、通信等,因此,对网络传输数据的研究就具备了它的重要性和必要性。对网络数据的研究,一方面可以了解网络结构中各个节点所承载的负荷,促进网络的建立和优化。另一方面可以根据网络行为的分析来开发建立新的网络协议,从而保证网络更安全的传输。研究者可以自主采集所需的网络数据,不过为了更全面的分析,往往需要使用机构发布的数据信息。然而网络数据流信息往往包含了很多的隐私信息,发布这些信息的同时也存在隐私泄露的风险。为了在保护用户隐私的前提下发布数据,数据发布者通常会改变或者隐藏主体的标识符,但这种基本的处理并不能很好地保护个体隐私,攻击者可以利用背景知识和其他数据推断出个体身份或敏感信息。为此,学术界提出了一系列方法来抵御这些攻击,其中,匿名化技术和数据交换技术是常见的隐私保护方法。早期的研究多集中在对网络数据中的IP地址本身的修改和加密,但这种方法本身并不能很好的保护数据隐私,我们总结了经典方法的优势和不足,结合近些年的扩展的方法,提出了几种能抵御更多种类型攻击的技术。本文的主要贡献如下:第一,我们提出了基于带权二分图的网络数据的匿名化方法来抵御针对数据的边攻击;第二,我们提出基于带权二分图的数据交换的方法来抵御针对数据的多种混合攻击。下面具体介绍我们的主要工作。第一个工作是采用k-匿名的方法对网络数据流提取的图结构进行匿名化处理以抵御针对图的边攻击。本论文采用带权二分图模型对网络数据建模,用顶点表示主机,用边表示主机之间是否具有通信行为,用权重表示主机之间交换的数据包数量。我们针对对于图结构常见的边攻击,采用k-匿名方法保护主机身份和其它敏感信息不被泄露。考虑到数据的可用性,在整个匿名化过程中尽量减少对图的修改,减少对原数据的改动,从而减少信息损失。实验结果验证了算法的有效性。第二个工作在第一个工作的基础上,采用数据交换和k-匿名结合的方法来抵御更多种攻击的混合攻击,包括"边攻击"、"指纹攻击"和"插入攻击"。我们赋予了攻击者更强的攻击能力,可以获取更多的关于主机的背景知识。采用此方法进行保护,网络中的主机具有更高的安全性,在某些标准上,数据信息损失程度反而更小,实现了隐私保护等级和数据可用性的平衡。