论文部分内容阅读
用户画像是推荐领域的一项重要的技术,在国内最早应用于互联网电子商务行业,旨在通过分析用户的网络浏览轨迹、生活习惯等数据,使用大数据、机器学习等方式为用户生成个性化的标签,从而达到画像的目的,然后依据这些标签给客户推荐他们喜爱的产品。本课题的电信用户画像系统是根据某省电信运营商精准营销的实际需求,运用分布式存储技术、并行计算技术等大数据技术对整个系统进行研究、设计并实现。以某省电信运营商的脱敏数据作为数据源,将用户的多方面数据进行汇聚梳理,使用电信用户画像系统从多个维度构建电信用户的用户画像,准确把握用户特点及需求,进而挖掘出数据中隐藏的价值和普遍规律,将其应用于商品推荐、广告精准营销和用户个性化服务等。本课题的研究对运营商开展精准营销活动,由网络运营转向数据运营具有实际意义。本文介绍了用户画像应用的现状,同时指出了传统方法在应对海量数据的分析时存在的问题及传统电信运营商在应对海量数据和用户越来越差异化的需求时所面临的困难。在此基础上,提出了本课题研究的内容,基于Spark的电信用户画像的研究及实现。本文的项目存储部分和数据运算部分都是在大数据分布式集群上进行,文档向量转化上使用的是Bert的预训练模型,将转化后的向量根据不同的类别进行聚类从而获取画像标签,因此本文将对以下的三个部分展开分析:(1)首先本文系统地阐述了大数据系统从数据存储、数据运算、数据展现等一系列技术的研究与运用;具体技术有Spark SQL、Spark Streaming、Hbase、HDFS等。(2)其次,本文分析了谷歌最近研究的预训练神经网络语言模型Bert(Bidirectional Encoder Representation from Transformers),其在自然语言处理领域中挖掘文本间语义和句式关系方面均有良好的表现,并引起了业界极大的关注。(3)然后本文阐述了文本聚类算法K-means的基本原理和基本思想并加以改进。与传统的聚类算法K-means相比,本文针对传统K-means聚类算法计算量大且容易造成局部最优解的问题,提出了优化的聚类算法PK-means,它经过改进后不仅减少了训练过程中的运算资源损耗,同时降维算法保留主要特征的特点也使得算法拥有良好的泛化能力。此外,本文在初始聚类中心的选择上使用距离限制进行一定的优化,从而避免了聚类结果产生局部最优的现象。接着本文对部分电信数据进行实验,将原始数据经过过滤和预处理,并使用Bert进行文档向量的转化,对改进的聚类算法PK-means模型进行实例检验,并对模型结果与传统的算法运行结果进行分析、对比。实验结果表明,该方法在计算速度和聚类效果上有明显的改善。最后,本文在以上成果的基础上完成了相应的软件--电信用户画像展示系统。