论文部分内容阅读
随着移动互联网智能终端、移动网络和应用服务的不断发展,移动互联网数据的收集和传输能力不断增强。针对移动数据开发的应用逐渐增多,其中典型的应用包括团体检测、灾难抢救、位置预测和情感分析等。这些移动应用正悄然改变人们的日常生活,移动数据挖掘近年来成为数据挖掘中的热点领域。本文重点讨论移动数据挖掘算法,包括:移动通信恶意通话节点检测、移动通信节点间影响力检测、移动轨迹异常检测、移动应用密码强度分析以及移动通信数据存储实现。其目的在于有效利用采集到的移动数据,为人们提供更优质的移动互联网服务。本文的研究成果包含以下几个方面:1.研究了移动通信恶意通话问题。本文提出了一种基于通话记录的恶意节点检测算法(Call Log Rank Algorithm,CLRank)。该算法将挖掘恶意通话节点当做经典的分类问题,将移动通话日志按照某个特定的时间间隔分割为多个移动通话日志区段,针对每个通话日志区段构建基于时间的通信社交网络,使用基于排序和分类的方法检测潜在的恶意节点。与现有方法相比,该算法仅使用链接信息,在最大程度上保护了用户隐私。实验结果表明,CLRank可以从通话日志中动态、自动和高效地检测恶意节点。2.研究了移动通信节点间的影响力检测问题。针对短信日志数据提出了基于时间的影响力图模型(Time-based Influence Graph,TIG)。TIG是一种全局节点影响力算法,该算法首先将短信日志数据转换为接触序列,同时考虑时间信息对影响力检测的作用,采用动态、基于时间的排序方法计算网络节点间的影响力。针对通话日志数据提出了基于Edge Rank算法的影响力图模型(Edge Rank-based Influence Graph,ERIG)。ERIG是一种局部节点影响力算法。该算法首先将通话日志数据转换为区间图,计算动态的基于时间的影响力值,并依据该值对节点影响力进行排序。实验结果表明TIG和ERIG能够自动、高效地计算移动数据节点影响力。3.研究了移动轨迹异常检测问题。针对现有异常轨迹检测算法采用基于距离的方法测算轨迹分量间的距离,用户需要选取某个全局距离阈值,因此处理局部稠密的移动轨迹效果不佳,且算法结果对参数值敏感的问题,本文提出了基于密度的移动轨迹数据异常检测算法(Density-based Mobile Trajectory Outlier Detection,DMTOD)。该算法由分割和检测两个阶段组成。在分割阶段,算法将移动用户的轨迹数据分为若干区间;在检测阶段,算法使用基于密度的异常检测算法计算结果。实验结果表明DMTOD能够更好地检测异常移动轨迹。4.研究了中国移动互联网应用的密码设置习惯问题。目前缺乏大规模中国移动应用密码设置的研究。本文收集了网络入侵者公布在网上的两千万中国网络用户密码信息,使用统计学和机器学习方法研究密码设置习惯。针对当前缺乏适用于中国互联网用户密码字典的现状,提出了基于训练集扩展的字典(Training set Extension Based Dictionary,TEBD)生成算法。该算法使用概率上下文无关文法,构建4层密码分布树(Training Set Distribution Tree,TSDT),使用基于遗传算子的算法生成新的密码集合。实验结果表明该算法是有效的,可以检验用户密码的安全性。5.实现了移动通信数据单机存储。在数据规模不到PB级别时,可以使用基于PC机的移动通信数据存储。它具有实现简单、成本较低等优点。构建并优化了基于Graph Chi的单机移动通信数据存储(Mobile Communication Data Storage,MCDS)。MCDS从数据格式、分片机制和内存置换算法等三方面改进了Graph Chi。实验结果验证了MCDS的有效性,为移动通信数据挖掘提供了切实可行的实验环境。