论文部分内容阅读
在电信领域中,用户流失预测是指运营商在用户流失前预测出要流失的用户,使之继续使用该运营商提供的服务从而创造利润。用户流失预测能够帮助公司减少用户的流失,这对运营商增加营收和提高竞争力有重要意义。然而,由于电信领域数据的稀疏性和不平衡等问题,国内外对于电信领域的用户流失预测大多处于研究阶段,实际应用较少。本文使用电信运营商数据集和KDD Cup比赛数据集,两组数据集都具有电信领域数据的特点。数据稀疏是指在数据集合中存在大量的空值。本文使用添加0值或平均值等方式来填充空值。本文使用的电信运营商数据集的离网率约为1.28%,KDD Cup比赛数据集的离网率约为7.34%,属于数据不平衡问题,会严重影响预测的效果。本文使用了机器学习与朴素随机过采样结合来解决电信数据不平衡的问题,实验结果显示使用朴素随机过采样后,在电信运营商数据集和KDD Cup数据集的AUC值达到0.71602和0.68574。运营商想要维系用户需要考虑维系成本,降低成本的方式是不同需求的用户使用不同的维系方案。本文利用集成的思想提出两阶段的模型混合,一阶段模型混合主要使用Bagging方法与GDBT、AdaBoost和XGBoost三个模型结合,结合后提高了预测的准确率。在一阶段模型混合后电信运营商数据集和KDD Cup数据集的AUC值提高到0.71987和0.69571。二阶段模型混合主要使用的是GDBT和AdaBoost混合的GDBT_ADA、LR和XGBoost,二阶段模型混合的目的是去寻找高危的流失用户。实验结果表明,朴素随机过采样以及两个阶段的混合模型结合使用,有效提高了模型的准确性和可用性。