论文部分内容阅读
近年来,随着移动设备和4G网络的普及,移动互联网深刻的影响着人们的生活方式。理解和分析移动应用服务、挖掘用户行为特点对提供更好的移动网络服务有着重要的意义。本文基于真实的移动互联网流量提出一套通用的知识挖掘方法,利用基于神经网络的表示学习技术,自动的学习域名和用户的表示向量,并将其应用到多个不同的机器学习任务场景中。本文的主要工作如下:(1)基于大规模移动DPI流量,利用分布式处理技术抽取用户的访问序列。基于用户访问序列数据,利用三层的神经网络,以预测周围域名的目标来学习出域名和用户的表示向量,并将其应用到聚类、分类等各种机器学习系统中。(2)对于从DPI数据中学习到的域名向量,我们将其应用到域名分类的任务中。实验表明,利用域名表示向量对不同公司的域名分类正确率能够达到93%,对不同业务类别的域名分类正确率能够达到85%;此外我们还通过度量域名的余弦距离进行域名的关系挖掘。(3)对于从DPI数据中学习到的用户向量,我们将其应用到用户聚类中,并借助于人工标注的知识规则对聚类结果进行了详细的商业兴趣分析;此外,我们基于用户表示向量进行特征转化,再利用孤立森林算法来进行用户异常检测。实验验证了我们的方法的有效性。