论文部分内容阅读
随着近年来互联网的高速发展,各种类型多样的网络应用程序呈现爆炸式增长,人们对于互联网的依赖迅速增长,与现实社会不同的是,用户可以通过网络虚拟身份而非真实身份实现所有的网络行为,网民拥有的网络虚拟身份组成了一个巨大的虚拟网络社区,社区中的虚拟身份可能有着直接或者间接的关系,本课题的研究重点就是识别多个属于同一个现实用户的所有虚拟身份,并将其合并到一起,最终生成一个虚拟身份库。针对用户上网产生的海量数据,本课题采用当前主流的大数据平台和处理技术Spark完成数据的分布式并行处理工作,同时基于统计学理论方法、数据挖掘中的关联分析、图论相关算法完成了虚拟身份合一分析系统中的关键算法设计和实现,解决了识别假MAC和假id的问题,研究出了挖掘频繁虚拟身份对的算法和高效合并虚拟身份的算法,保证了结果的完整性和准确性。本文首先介绍了网络虚拟身份关键技术研究的背景、意义和现状。接下来介绍了本论文研究所使用到的理论方法,包括Spark大数据处理技术的框架和组件等,研究过程中使用到的数据预处理技术和数据挖掘算法的原理和应用等。接着,详细地描述了虚拟身份合一系统研究的具体过程,主要包括数据采集模块介绍、虚拟身份研究过程详述、遇到的关键问题解决、算法优化前后对比分析等。本课题研究确定了虚拟身份合一分析的方案并高效实现,最终从海量上网数据中得到属于同一个现实用户的所有虚拟身份,并为公安等相关部门确认网络犯罪实施者身份提供数据支持,在用户虚拟身份识别和打击网络犯罪方面实现了应用价值。