论文部分内容阅读
随着移动通信行业市场的繁荣发展,中国移动、中国联通、中国电信这三家老牌电信运营商之间的“三国演义”愈演愈烈。近年来,移动运营商一方面饱尝“价格战”之痛,另一方面也面临着不断攀高的营销成本支出。因而各移动运营商都开始考虑,如何从追求规模为主的发展模式向规模效益兼顾的发展模式转变。而实现这一转变的关键就是对用户流失率的控制,因此客户流失预测成为电信行业关注的一个重要问题。以传统统计学方法和人工智能方法为基础,电信行业客户流失预测取得了不少的研究成果,但仍存在数据来源众多、数据属性关系复杂、类别数量不平衡分布等特点。而现有的关于流失预测研究方面还缺乏一套科学的、系统的理论框架和方法体系,现有的基于单模型客户流失预测方法也不能完全满足应用需求。因此,在这一背景下,对电信行业客户流失预测的模型进行进一步的探索和研究将具有重要的理论意义和实践价值。本文主要研究电信客户流失预测的理论框架和模型选择,在此基础上围绕提升电信客户流失预测能力这个主要目标,展开了一系列的电信客户流失预测研究。
首先,在模型选择的基本理论和分类问题的理论框架下,本文对现有的客户流失预测模型进行了深入的研究和对比。在实例电信客户数据上分别建立具有代表性的决策树(Decision tree)、随机森林(Random Forest,RF)、支持向量机(SupportVector Machine,SVM)和K近邻法(K nearest neighbor,KNN)流失预测模型,并利用不同的分类器性能指标对模型结果进行对比。对比结果表明:在模型平均准确率、命中率、覆盖率、提升系数和可靠性Kappa值上,随机森林预测模型和支持向量机预测模型均优于决策树预测模型和K近邻法预测模型,但如果进一步考虑运算效率和参数设定,支持向量机预测模型就失去其优势,而随机森林模型这一典型的组合分类器算法则占据以上两种考量的优势,因此本文在随机森林的基础上进一步探索和研究改进客户流失预测模型的方法和技术。
其次,电信客户流失预测数据具有来源众多、属性关系复杂、类别不平衡等特点。因此为进一步提高模型的性能,对电信客户数据进行属性选择和特征提取十分必要。本文详细讨论了基于Filtering方法和基于Wrapper方法的属性选择方法,提出了一种基于剪枝技术的属性选择方法,即基于方向排序剪枝的属性选择方法,将属性选择问题转换为组合分类器中的基分类器剪枝问题,并将该方法与基于随机森林的属性选择方法进行对比。在实例电信客户数据集上的实验表明:基于方向排序剪枝的属性选择方法在对模型的命中率、覆盖率、模型准确率和提升系数的改进方面比基于随机森林的属性选择方法具有更大的优势,较小规模的属性集可以获得更好的模型分类性能。
再次,为了进一步发掘属性间的高阶统计信息,本文提出一种基于随机森林和转导推理的特征提取方法,从不同角度来提取客户数据中的多种特征,同时将高维属性降低为三维特征,并充分利用测试数据的属性信息。在此基础上,针对电信行业客户流失数据的类别不平衡性特点,本文引入单类支持向量机算法来改进随机森林预测模型,从而解决这一问题。在实例电信客户数据集上的实验表明:基于随机森林和单类支持向量机的客户流失预测模型能够克服类不平衡性,具有良好的分类性能。
最后,为使随机森林在电信行业客户流失预测中更具有运算效率和存储空间上的实用性,本文首先提出一种基于随机森林相似度简化矩阵的差异度测度,用来衡量组合中基分类器的差异度,在此基础上提出一种基于该差异度测度的基分类器剪枝算法,即基于随机森林的差异度测度的剪枝算法。在UCI标准数据库上的实验表明:与基于错误率剪枝算法和基于方向排序剪枝算法相比,该剪枝算法在分类性能和运算效率上具有更大的优势,不仅能大幅度减少组合中基分类器的数量,而且可以保证组合的分类性能。将该方法应用于电信行业中建立简约的客户流失预测模型,不仅可以获得比全体组合更好的泛化性能,更能进一步减少系统的内存和运算消耗,模型结果具有部分可解释性,是一种十分有效的客户流失预测手段。