论文部分内容阅读
移动互联网的发展促使通信运营商将原有的以网络为核心的通信运营模式改变为以客户体验为中心的新型价值模式,通过数据挖掘实现以客户体验管理为中心的通信智能运营已经成为一种必然的趋势。通信智能运营中的客户流失预警和终端精准营销是典型的不平衡数据分类问题,因此,面向不平衡数据集的分类算法研究及其在通信智能运营中的应用具有实用意义。本文针对不平衡数据集的分类算法进行研究,所做的主要研究工作包括以下方面:首先,为解决不平衡数据集的分类问题,提出了一种基于近邻样本分布和泊松分布的改进合成少数类过采样(SMOTE:Synthetic Minority Oversampling Technique)算法,针对 SMOTE 算法生成新样本时不考虑数据分布、生成新样本过程不可控、丢弃多数类信息的问题,在生成新样本的时候引进和数据分布有关的参数,对合成样本的偏离程度进行有效调节,仿真结果验证了所提算法的有效性;其次,针对k最近邻(kNN:k-Nearest Neighbor)分类算法的算法复杂度过高的问题,提出了一种基于预分类的kNN改进算法(kP:kNN algorithm based on Pre-classification),通过删除数据集中特征不明显的数据样本来减少算法时间复杂度,仿真结果验证了所提算法的有效性。最后,从通信智能运营实际应用的角度出发,针对客户流失数据和终端营销数据,采用基于近邻样本分布和泊松分布的改进SMOTE算法(SPDDN:SMOTE algorithm based on Poisson Distribution and the Distribution of Neighborhoods)和kP算法进行数据挖掘和分析,验证了上述所提算法的有效性,为通信智能运营中面向不平衡数据集的分类方法提供了有效的解决方案。