论文部分内容阅读
SVM(Support Vector Machine)是基于统计学习理论的学习机器,在分类问题的处理中具有优秀的性能。不平衡分类问题是数据挖掘和机器学习领域的一个重要研究方向,并且在实际商业应用中不平衡数据集往往具有高不平衡程度、严重的类重叠和噪声、高维、海量以及涉及高不平衡多分类问题等特点,对分类器的分类性能造成极大影响。论文从实际电信商业智能问题出发,旨在解决SVM在不平衡分类中的不足,提出更为有效的解决方法,使SVM能够适用于具有高不平衡特性的商业智能应用。通过Benchmark数据集和实际电信数据集中的仿真实验验证了所提出方法的有效性和优越性。在上述研究结果的基础上,论文设计并实现了电信业公众客户防欠费欺诈商业智能系统和电信防欠费欺诈智能催缴派单系统,同时结合实际数据挖掘项目经验,提出一个针对电信行业的数据挖掘方法论。论文的主要研究内容如下:Ⅰ.针对高不平衡程度和类重叠同时存在于数据分布时分类困难的问题,提出SVM-HIO(SVM modeling for Highly Imbalanced and Overlappingclassification)算法。SVM-HIO算法采用分类超平面偏移策略使得能够在某个特征空间识别出非重叠样本并训练元模型;通过核空间轮换策略,SVM-HIO算法在多个核空间进行学习,进而能够识别出更多特征空间的非重叠样本;利用元模型的结合最终SVM-HIO算法建立一个非线性模型而不是之前SVM的线性模型,建立的非线性模型能够将全部少数类预测出,同时保证多数类的误分代价最小Ⅱ.针对现有高不平衡多分类算法,少数类的分类性能和识别能力较差的问题,提出一种二叉树树结构建立标准-基于不平衡度的类间可分离性,在此基础上提出一种基于二叉树的SVM高不平衡多分类算法MCI-SVM(Multi-Classification based highly Imbalanced SVM)。在多分类建模中,MCI-SVM算法基于少数类的重要程度,同时结合类间可分离性的思想,首先识别多分类问题中的重要类簇,降低重要类别的误差累积;在多数类簇和少数类簇的建模节点,利用代价敏感学习策略减少由于高不平衡性引起的分类性能降低;同时,在各个簇中将分离性高的类别优先分离。提出的MCI-SVM算法在保证总体分类性能的同时,能够减少少数类的推广误差,并显著提高少数类的识别能力。Ⅲ.针对在海量高不平衡分类中传统学习算法无法在有效时间内建立模型以及高不平衡会导致较差模型精度和少数类识别能力的问题,提出一种基于(1+ε)近似最小包裹球(MEB)的海量高不平衡分类算法LCI-SVM(Large scale Classification based highly Imbalanced SVM)。LCI-SVM算法基于高维空间寻找最小包裹球核心集的思想,将原SVM优化问题转化为在高维空间寻找最小包裹球问题,其训练时间与样本维度和大小无关,能够高效地在海量数据中建立SVM模型;LCI-SVM算法通过启发式的迭代策略使得分类超平面向多数类偏移,保证少数类具有更高的推广能力;针对过拟合问题,提出基于知识的τ近似最佳分类超平面。提出的LCI-SVM算法能够显著提高在海量高不平衡数据集上的分类性能和少数类的识别能力。Ⅳ.针对电信业欠费问题的商业需求,设计并实现了电信业公众客户防欠费欺诈商业智能系统和电信防欠费欺诈智能催缴派单系统,介绍了该系统功能构架和系统结构,详细介绍了电信业公众客户防欠费欺诈商业智能系统设计和实现的过程,最后给出系统试运行后的评估效果证明该系统能够有效帮助电信企业减少由欠费造成的经济损失。Ⅴ.基于CRISP-DM(Cross-Industry Standard Process for Data Mining)方法论,并结合实际数据挖掘项目经验,提出一个新的针对电信业数据挖掘方法论DMM-TI(DM Methodology for Telecom Industry),为今后电信业数据挖掘项目的成功实施提供指导和保障;