论文部分内容阅读
在电信行业,争取一个新客户的代价往往比留住一个老客户的代价要大得多,因此,客户流失预测是电信运营商最为关心的重点之一。客户流失预测的分析对象是已经流失和没有流失的客户,从他们的行为找出流失客户的特征,然后预测客户未来一段时间的流失概率。这是一个时间序列分类问题。然而,目前对中国电信而言,真正流失的客户占总客户的比例非常小。对于这种不平衡数据的挖掘问题,无论在数据挖掘领域还是在机器学习领域都是一大难题。针对中国电信的需求,本文提出了两种基于时间特征提取(Feature-based)及支持向量机(SVM)的时间序列分类方案。第一种方案称为EM+SVM。主要思想是利用EM(ExpectationMaximization)迭代算法的思想把SVM(SupportVectorMachine)应用于不等长的时间序列分类中。第二种方案称为MSNFE+SVM(Mean-STD-NormFeatureExtraction,MSNFE)。主要思想是利用分层的思想,把不等长的时间序列映射为固定长度的时间特征向量,然后用SVM进行训练、预测。从实验的结果可以看出,这两种方案在处理不平衡时间序列的分类问题时仍然有比较理想的结果。关键字:支持向量机,客户流失,时间序列分类