论文部分内容阅读
随着科技的不断进步和互联网技术的不断发展,IPTV正逐渐改变着人们的生活方式。然而由于IPTV机顶盒本身出现的故障或者网络传输堵塞等问题导致用户在使用IPTV机顶盒的时候偶尔出现卡顿、花屏等情况,造成了用户的体验下降。为了提升用户体验,减少用户的流失,运营商希望利用现有的IPTV机顶盒数据和报障用户数据建立IPTV故障预判模型,用以预测IPTV故障情况,以便在用户主动报障之前提前检测和维修IPTV机顶盒,解决用户即将面临的问题,提高用户体验。本论文就是基于这个问题展开研究的。一方面,本论文根据传统朴素贝叶斯分类算法的条件独立性假设条件,并结合数据属性本身的信息增益和数据条件属性与决策属性间的相关系数,将信息增益占整体信息增益的比值和属性间的相关系数作为综合权重,提出了一种基于综合加权的朴素贝叶斯分类算法,作为IPTV用户报障预测中的分类器。实验结果表明,该算法比普通NB算法、WNB-G算法、WNBCC算法的分类效果要好且性能更加稳定。另一方面,由于IPTV数据集是一个非均衡的数据集,本论文结合IPTV数据的特点,对传统非均衡数据集处理算法SMOTE做出了改进,提出了一种改进型SMOTE过采样算法,实现非均衡数据的处理。该算法首先通过K-Means方法对少数类样本进行聚类,然后在每一个类簇中利用样本的近邻类型之间的数量关系再次对类簇进行分类,并删除噪声样本。然后根据输入的随机数与类簇中子类样本数量的比例关系选择在不同的子类样本中进行SMOTE再抽样。最后我们将该算法跟综合加权的朴素贝叶斯分类算法结合起来建立IPTV用户报障预测模型。实验结果表面,该模型比其它模型预测效果要好。在系统实现方面,本论使用Hadoop平台建立IPTV故障预判系统,并实现了一个易于操作的前端可视化界面。后台主要包括数据存储、分布式计算、通信几个功能,前端可视化界面主要提供登录功能、权限管理、交互功能、显示功能、管理功能。