基于SVM的高不平衡分类技术研究及其在电信业的应用

被引量 : 0次 | 上传用户:lishuangjie2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
SVM(Support Vector Machine)是基于统计学习理论的学习机器,在分类问题的处理中具有优秀的性能。不平衡分类问题是数据挖掘和机器学习领域的一个重要研究方向,并且在实际商业应用中不平衡数据集往往具有高不平衡程度、严重的类重叠和噪声、高维、海量以及涉及高不平衡多分类问题等特点,对分类器的分类性能造成极大影响。论文从实际电信商业智能问题出发,旨在解决SVM在不平衡分类中的不足,提出更为有效的解决方法,使SVM能够适用于具有高不平衡特性的商业智能应用。通过Benchmark数据集和实际电信数据集中的仿真实验验证了所提出方法的有效性和优越性。在上述研究结果的基础上,论文设计并实现了电信业公众客户防欠费欺诈商业智能系统和电信防欠费欺诈智能催缴派单系统,同时结合实际数据挖掘项目经验,提出一个针对电信行业的数据挖掘方法论。论文的主要研究内容如下:Ⅰ.针对高不平衡程度和类重叠同时存在于数据分布时分类困难的问题,提出SVM-HIO(SVM modeling for Highly Imbalanced and Overlappingclassification)算法。SVM-HIO算法采用分类超平面偏移策略使得能够在某个特征空间识别出非重叠样本并训练元模型;通过核空间轮换策略,SVM-HIO算法在多个核空间进行学习,进而能够识别出更多特征空间的非重叠样本;利用元模型的结合最终SVM-HIO算法建立一个非线性模型而不是之前SVM的线性模型,建立的非线性模型能够将全部少数类预测出,同时保证多数类的误分代价最小Ⅱ.针对现有高不平衡多分类算法,少数类的分类性能和识别能力较差的问题,提出一种二叉树树结构建立标准-基于不平衡度的类间可分离性,在此基础上提出一种基于二叉树的SVM高不平衡多分类算法MCI-SVM(Multi-Classification based highly Imbalanced SVM)。在多分类建模中,MCI-SVM算法基于少数类的重要程度,同时结合类间可分离性的思想,首先识别多分类问题中的重要类簇,降低重要类别的误差累积;在多数类簇和少数类簇的建模节点,利用代价敏感学习策略减少由于高不平衡性引起的分类性能降低;同时,在各个簇中将分离性高的类别优先分离。提出的MCI-SVM算法在保证总体分类性能的同时,能够减少少数类的推广误差,并显著提高少数类的识别能力。Ⅲ.针对在海量高不平衡分类中传统学习算法无法在有效时间内建立模型以及高不平衡会导致较差模型精度和少数类识别能力的问题,提出一种基于(1+ε)近似最小包裹球(MEB)的海量高不平衡分类算法LCI-SVM(Large scale Classification based highly Imbalanced SVM)。LCI-SVM算法基于高维空间寻找最小包裹球核心集的思想,将原SVM优化问题转化为在高维空间寻找最小包裹球问题,其训练时间与样本维度和大小无关,能够高效地在海量数据中建立SVM模型;LCI-SVM算法通过启发式的迭代策略使得分类超平面向多数类偏移,保证少数类具有更高的推广能力;针对过拟合问题,提出基于知识的τ近似最佳分类超平面。提出的LCI-SVM算法能够显著提高在海量高不平衡数据集上的分类性能和少数类的识别能力。Ⅳ.针对电信业欠费问题的商业需求,设计并实现了电信业公众客户防欠费欺诈商业智能系统和电信防欠费欺诈智能催缴派单系统,介绍了该系统功能构架和系统结构,详细介绍了电信业公众客户防欠费欺诈商业智能系统设计和实现的过程,最后给出系统试运行后的评估效果证明该系统能够有效帮助电信企业减少由欠费造成的经济损失。Ⅴ.基于CRISP-DM(Cross-Industry Standard Process for Data Mining)方法论,并结合实际数据挖掘项目经验,提出一个新的针对电信业数据挖掘方法论DMM-TI(DM Methodology for Telecom Industry),为今后电信业数据挖掘项目的成功实施提供指导和保障;
其他文献
农村文化礼堂是农村"实现精神富有、打造精神家园"的重要载体,是实现文化强市建设的重要基石,也是巩固农村思想文化阵地的重要保障。推进农村文化礼堂建设,主要从建设理念、
本文建立了以补贴政策工具和补贴环节相结合的美国化石燃料补贴分析框架,运用该分析框架测算了美国联邦化石燃料补贴规模,并将测算结果与美国官方自述报告、能源信息署(EIA)、
近年来,互联网在国际上得到了迅猛的发展,网络化、信息化浪潮涌动迭起,网络基础设施的建设已经发展到了极高的阶段,我国的网络化虽然较晚,但是发展速度较快。伴随着网络基础
云计算(Cloud computing)是以虚拟化技术为基础,以互联网为载体提供基础架构、平台、软件等服务,整合大规模可扩展的计算、存储、数据、应用等分布式计算资源进行协同工作的
20世纪末以来,信息化、数字化、网络化浪潮席卷全球,使战争的形态产生了深刻变化,信息化战争将成为21世纪战争的主要形态。建设信息化军队、打赢信息化战争,已成为当今世界各
对需求的理解来自于日复一日的生活,优秀的设计师首先要具有丰富的生活经验,可是空间和时间往往成为设计师体验某些经历的限制,设计的专业性有时会成为局限性。另一方面,用户
随着互联网络用户数量的迅速增长,一方面传统的客户端/服务器模式面临着服务器单点过热和失效等难以解决的问题,另一方面网络上聚集了大量的资源,而资源的快速定位与便捷共享
随着上海市老龄化现象的日益加重,老年人参与轨道交通的人数增多,引发的各种出行问题也尤为突出。以轨道交通视觉导向设计为切入点,调研分析上海轨道交通中的不足之处,根据老
<正>在现代市场经济中,金融体系发挥着越来越重要的作用。运行良好的金融体系能够维持和促进一国经济的长期稳定。相反,金融体系的崩溃却可能导致一国经济的整体崩溃。正因为
总体来讲,培训是由培训前的准备、培训实施、培训后的效果评估组成的系统过程。随着经济的发展,人们已经逐步意识到培训对企业人才开发与管理的重要价值,前两个环节已经在企