电信行业客户流失预测的模型研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:pkutraining
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动通信行业市场的繁荣发展,中国移动、中国联通、中国电信这三家老牌电信运营商之间的“三国演义”愈演愈烈。近年来,移动运营商一方面饱尝“价格战”之痛,另一方面也面临着不断攀高的营销成本支出。因而各移动运营商都开始考虑,如何从追求规模为主的发展模式向规模效益兼顾的发展模式转变。而实现这一转变的关键就是对用户流失率的控制,因此客户流失预测成为电信行业关注的一个重要问题。以传统统计学方法和人工智能方法为基础,电信行业客户流失预测取得了不少的研究成果,但仍存在数据来源众多、数据属性关系复杂、类别数量不平衡分布等特点。而现有的关于流失预测研究方面还缺乏一套科学的、系统的理论框架和方法体系,现有的基于单模型客户流失预测方法也不能完全满足应用需求。因此,在这一背景下,对电信行业客户流失预测的模型进行进一步的探索和研究将具有重要的理论意义和实践价值。本文主要研究电信客户流失预测的理论框架和模型选择,在此基础上围绕提升电信客户流失预测能力这个主要目标,展开了一系列的电信客户流失预测研究。   首先,在模型选择的基本理论和分类问题的理论框架下,本文对现有的客户流失预测模型进行了深入的研究和对比。在实例电信客户数据上分别建立具有代表性的决策树(Decision tree)、随机森林(Random Forest,RF)、支持向量机(SupportVector Machine,SVM)和K近邻法(K nearest neighbor,KNN)流失预测模型,并利用不同的分类器性能指标对模型结果进行对比。对比结果表明:在模型平均准确率、命中率、覆盖率、提升系数和可靠性Kappa值上,随机森林预测模型和支持向量机预测模型均优于决策树预测模型和K近邻法预测模型,但如果进一步考虑运算效率和参数设定,支持向量机预测模型就失去其优势,而随机森林模型这一典型的组合分类器算法则占据以上两种考量的优势,因此本文在随机森林的基础上进一步探索和研究改进客户流失预测模型的方法和技术。   其次,电信客户流失预测数据具有来源众多、属性关系复杂、类别不平衡等特点。因此为进一步提高模型的性能,对电信客户数据进行属性选择和特征提取十分必要。本文详细讨论了基于Filtering方法和基于Wrapper方法的属性选择方法,提出了一种基于剪枝技术的属性选择方法,即基于方向排序剪枝的属性选择方法,将属性选择问题转换为组合分类器中的基分类器剪枝问题,并将该方法与基于随机森林的属性选择方法进行对比。在实例电信客户数据集上的实验表明:基于方向排序剪枝的属性选择方法在对模型的命中率、覆盖率、模型准确率和提升系数的改进方面比基于随机森林的属性选择方法具有更大的优势,较小规模的属性集可以获得更好的模型分类性能。   再次,为了进一步发掘属性间的高阶统计信息,本文提出一种基于随机森林和转导推理的特征提取方法,从不同角度来提取客户数据中的多种特征,同时将高维属性降低为三维特征,并充分利用测试数据的属性信息。在此基础上,针对电信行业客户流失数据的类别不平衡性特点,本文引入单类支持向量机算法来改进随机森林预测模型,从而解决这一问题。在实例电信客户数据集上的实验表明:基于随机森林和单类支持向量机的客户流失预测模型能够克服类不平衡性,具有良好的分类性能。   最后,为使随机森林在电信行业客户流失预测中更具有运算效率和存储空间上的实用性,本文首先提出一种基于随机森林相似度简化矩阵的差异度测度,用来衡量组合中基分类器的差异度,在此基础上提出一种基于该差异度测度的基分类器剪枝算法,即基于随机森林的差异度测度的剪枝算法。在UCI标准数据库上的实验表明:与基于错误率剪枝算法和基于方向排序剪枝算法相比,该剪枝算法在分类性能和运算效率上具有更大的优势,不仅能大幅度减少组合中基分类器的数量,而且可以保证组合的分类性能。将该方法应用于电信行业中建立简约的客户流失预测模型,不仅可以获得比全体组合更好的泛化性能,更能进一步减少系统的内存和运算消耗,模型结果具有部分可解释性,是一种十分有效的客户流失预测手段。
其他文献
本课题以电镀锡生产线为依托,为解决生产线维护耗时长,生产线故障判断处理困难等问题,设计并实现了冶金生产线的远程维护系统。  首先,通过研究电镀锡生产线的工艺流程、主要技
随着工业化的发展,工业生产中的自动化水平也在不断提高,设备间传递的信息量也在迅速增加。为了满足日益增多的信息传输需求,各种不同的现场总线技术相继出现,并不断成熟。PROFIB
人类视觉系统能将有限的计算和存储资源优先分配给场景中少数的显著或感兴趣区域,从而很好地解决了视觉信息处理中的“瓶颈问题”,这种特异性称为视觉系统的注意机制。如果能
动力定位(DP)系统,是利用船舶自身的推力系统来提供抵抗风、浪、流等作用在船上的环境力,从而使船舶以一定的姿态保持在海面某目标位置。船舶的综合运动是由风、流、二阶波浪
国家科技部启动了电动汽车重大专项以来,我国在车用电机某些单项指标中已经接近或达到国际先进水平。但是在先进电力电子技术、电机驱动技术及驱动系统集成的研究方面与以美
当今,计算机、通信网络、智能终端的高速发展,促使了计算机与计算机,计算机与智能终端之间任意连接和数据传输成为可能,并且只要它们都接入互联网,这样的传输是很容易和方便
为适应生存环境,自然界中大多生物都有相当灵敏嗅觉系统。很多生物能够利用其敏锐的嗅觉通过气味信息进行界定领地、吸引同伴、跟踪猎物、抵御敌人等生命活动。上世纪九十年
学位
PWM控制技术作为最好的控制方法之一,具有其他传统控制方法无法比拟的优势,不但可以让系统在单位功率因数中运转,对谐波也可以起到很好的抑制作用,与此同时还可以让能量进行双向流动。就三相PWM整流器而言,其所具有的功率因数可控、电能可以双向传输和谐波污染小等特点,已经受到研究人员的广泛关注。然而,三相PWM整流器的控制仍存在一些不足,例如传统滞环电流控制开关频率不固定从而造成谐波畸变较大,而空间矢量控
肌电信号是指肌肉电活动在时间、空间上综合产生的生物电信号,肌电信号不仅与神经控制信号有关,也与肌肉本生的生理学特性有关。目前对肌电信号的研究被广泛地应用在康复工程学