论文部分内容阅读
互联网科技的飞速前进,社会网络已经与每个人密不可分,社会网络中包含大量个人或组织的相关信息,社会网络分析者和数据挖掘者需要分享这些信息以获得对各个领域有用的知识。社会网络数据的公开发布和分析将会泄露用户的数据信息,为了防止社会网络中个人或组织的数据信息泄露,研究学者已经提出了日渐成熟、分门别类的社会网络隐私保护方法。 大数据时代的到来,社会网络数据呈现出数据规模大、数据多样性等特点,使得传统隐私保护方法在处理大规模图数据集时出现隐私保护效果差和执行效率低等问题。本课题针对社会网络中的链接关系隐私保护问题,提出了一种基于图结构扰动的分布式社会网络隐私保护方法。该方法以结点为中心,通过结点间消息传递、结点值更新和程序多次迭代,依次完成了在大规模社会网络中查找可达结点、传递可达信息和链接关系随机扰动。最后可以高效率的完成对大规模图数据集的隐私保护。 针对现有的社会网络隐私保护方法忽略了用户对隐私保护需求不一致的实际情况,对基于图结构扰动的社会网络隐私保护方法进行扩展,提出了分布式个性化社会网络隐私保护方法。该方法将社会网络中的链接关系分类为敏感链接关系和非敏感链接关系,基于分布式图处理模型的以结点为中心的特点,只处理敏感链接关系,即通过查找敏感源结点的可达结点,传递可达信息给敏感源结点,随机扰动敏感源结点的链接关系三个步骤,实现针对个性化社会网络中的敏感链接关系的快速隐私保护处理。该方法只是针对敏感链接关系的隐私保护,因此节省了处理时间,降低了对图结构信息的扰动损失。 搭建分布式图处理系统平台Giraph和Spark GraphX,并采用真实数据集LiveJournal对以上两种算法的执行效率和发布数据的可用性进行实验和评估。实验结果表明,基于图结构扰动的分布式社会网络隐私保护方法提高了处理大规模图数据的效率,并保证了发布数据的可用性;分布式个性化社会网络隐私保护方法提高了处理大规模图数据的执行效率和扰动后图数据的可用性。