论文部分内容阅读
在当今社会,随着计算机技术的不断发展,我们所拥有的数据信息也以指数进行增长。单个的CPU节点对于海量数据的处理越来越乏力,利用云计算技术使用集群来进行数据存储与数据挖掘是大势所趋。电信运营商是常见的海量数据拥有者,掌握着用户信息、用户行为等数据资源。而随着技术日趋成熟,市场垄断逐渐被打破,运营商间的竞争越来越激烈,客户可以自由选择更便宜的资费和更优质的服务,经常会导致客户流失。在这样的背景下,论文在云计算环境下设计并实现了专门针对运营商的客户流失预测系统。论文根据系统的功能需求,设计了预测系统的整体框架,并给出了数据预处理模块、预测模型训练模块、预测模型测试模块和预测模型应用模块的设计方案,然后具体实现了各个模块,最后对系统性能进行了测试和分析。本文的预测系统主要采用了Logistic回归、朴素贝叶斯分类、BP神经网络等三种算法作为理论基础,重点给出了它们在Hadoop环境下的并行化。使用三种算法,给出训练集进行训练得到模型,并用测试集进行测试,发现在不同的场景下三种算法各有优劣。而针对于电信运营商的特殊性,BP神经网络算法效果最好,预测系统选用BP神经网络算法进行实际应用,给出了应用的效果。