【摘 要】
:
集成学习是模式识别领域的研究热点,集成分类器往往比单一分类器具有更好的预测精度和泛化能力。本文提出了一种基于BQIGSA选择性集成分类器的方法,并将其应用到用户流失预测中,期望能提升预测效果,帮助减少运营商的用户流失率。在基分类器的训练方面,本文选取了CART、Logistic和SVM为单一分类器。并针对用户流失数据高维性的特点,通过构造属性子集来训练基分类器。属性子集的选取有两个步骤:(1)使用
论文部分内容阅读
集成学习是模式识别领域的研究热点,集成分类器往往比单一分类器具有更好的预测精度和泛化能力。本文提出了一种基于BQIGSA选择性集成分类器的方法,并将其应用到用户流失预测中,期望能提升预测效果,帮助减少运营商的用户流失率。在基分类器的训练方面,本文选取了CART、Logistic和SVM为单一分类器。并针对用户流失数据高维性的特点,通过构造属性子集来训练基分类器。属性子集的选取有两个步骤:(1)使用Relief权重、MIC、条件基尼增益、Pearson相关系数、Fisher得分这五个相关性指标计算各个属性与类别的相关性,再利用舒尔茨函数融合五个指标的计算结果,得到属性与类别的相关性,并选取相关性较大的前80%的属性;(2)利用AP聚类算法对保留的属性进行聚类,从各个聚类类别中随机选取属性构造属性子集。基分类的训练形成了单一分类器分别为CART、Logistic、SVM、CL(CART+Logistic)、CS(CART+SVM)、LS(Logistic+SVM)、CLS(CART+Logistic+SVM)的七组基分类器集合。在基分类器的筛选方面,首先针对在训练集中预测结果完全一致的基分类器,保留其中具有最高AUC值的分类器。其次,对保留的基分类器利用BQIGSA进行筛选,分别设置适应度为G_mean和AUC,并将其在测试集的预测效果与基于遗传算法、Bagging算法集成基分类器的效果进行比较。结果表明,基于BQIGSA选择性集成分类器的方法具有最好的分类效果,且该方法通过设置合理的适应度函数可以减少不均衡样本对分类结果的影响。同时,以AUC为适应度函数比以G_mean为适应度函数更符合实际业务需求,可以在非流失用户召回率在60%以上时,使流失用户的召回率达到85.46%。
其他文献
乳腺癌对于女性是致死率较高的疾病之一,早发现早治疗是治愈乳腺癌的关键。超声成像技术因其无创伤、价格低廉、操作简便等优势,已经成为乳腺癌早期辅助诊断的主要工具之一。超声图像中的肿瘤分割对于乳腺癌的早期诊断具有重要意义。然而,乳腺超声图像存在灰度不同质性问题,这会严重影响算法的分割精度。为了解决该问题,本文研究了一种标签分布嵌入的活动轮廓分割模型:首先,在encoder-decoder网络框架下,构建
在即时通讯工具中存在大量的会话文本信息,这些信息中包含谣言、人身攻击、招摇撞骗、反动言论等不良信息,甚至很多不法分子借助即时通讯工具实施犯罪,因此面向会话文本的分析对于公安舆情分析、案件侦查、电子证据分析等业务具有重要作用。关键词是快速掌握文本主要内容的最佳方式,因此对会话文本关键词抽取的研究是很有价值的。本文主要针对会话文本的关键词抽取任务展开研究,具体内容如下:1、针对会话文本向量稀疏、中心性
党的十九大报告特别强调,要“推动城乡义务教育一体化发展”。今年的《政府工作报告》又再次强调:“推进城乡义务教育一体化发展,加快改善乡村学校办学条件,抓紧解决城镇学校‘大班额’问题,保障进城务工人员随迁子女教育。”实行九年一贯制,是贯彻落实党中央、国务院关于推动城乡义务教育一体化发展的重要举措。据不完全统计,目前全国实施该管理体制的学校大约有二万余所左右。九年一贯制这一新的办学模式越来得到社会普遍认
在20世纪中国文学史中,白薇无论其人还是其作品都是一个独特的存在。自1922年开始进行文学创作到1975年搁笔,白薇留下了包括戏剧、小说、诗歌、散文、电影文学等在内的共300余万字的文学作品,其中戏剧、小说成就最高,影响较大。本论文尝试重返历史现场,按照白薇文学创作的时间顺序,从大量文本入手,客观、全面地把握白薇的创作历程,通过对她生命历程与其创作的关系来探寻她文学创作的独特性,并分析其写作在各个
在应试教育背景下,很多学生越来越不重视数学概念学习,认为其既枯燥又没用。再加上学生在初中已经学习过锐角三角函数,这使得他们认为高中即将要学习的任意角的三角函数简单且无趣,以至于在学习完任意角的三角函数后仍然只会公式,完全不知道二者的区别和联系,不能真正理解甚至错误理解任意角的三角函数概念。所以,探讨三角函数的教学就显得尤为重要。三角函数是刻画周期现象的函数模型,新课标中特意列举简谐振动、声波、交变
在当代环境下,我们了解毒品问题的主要途径是大众媒体,媒体如何建构吸毒议题,直接影响着社会公众对吸毒问题的认知,尤其是进行深度报道、传播理性的报纸媒体,在议程设置中能够直接影响公众对吸毒人员与吸毒行为的认知和态度。因此,研究吸毒问题的媒介建构以及报道中吸毒人员的群体特征都是具有现实意义的问题。本研究的立场是在不影响公众对“毒品”本身危险性认知的前提下,从精神或心理层面上提升公众对改过后的吸毒人员的社
本课题通过饲粮中蛋氨酸不同的添加量,探究饲粮降低蛋白质含量的情况下最适宜的蛋氨酸添加水平。并通过降低饲粮成分中的主要蛋白质来源——豆粕的含量,来减轻养兔行业对进口豆粕的依赖,以期获得一定的经济效益。同时通过降低饲料中蛋白质的含量减少氮排放,保护环境。本课题通过试验测定在降低饲料中蛋白质含量的情况下,不同添加量的氨基酸对安哥拉长毛兔产毛性能、消化代谢、毛囊发育、繁殖性能及经济效益的影响。本课题分为两
随着电子技术的飞速发展,战场环境中的电子设备越来越多元化,传感器的类型和数量不断增加,这也使得以往使用单一传感器获取信息的方法不再能够满足作战需求。多传感器系统由于具有信息互补、鲁棒性强等优点已经受到了各方的青睐。传感器管理问题是多传感器目标跟踪系统中的一项关键技术,像大脑一样控制着整个系统针对不同的跟踪任务做出不同动作。本文主要对目标跟踪中的传感器管理问题展开了研究,研究内容以及主要贡献如下:首
李德裕的一生是和唐王朝的命运紧密相连的,他心怀社稷,积极革新,政绩斐然,却因牛李党争而惨淡收场,令人唏嘘。李德裕在创作上也用力甚勤,并取得了非凡的成就,其中辞赋作品留存于世的有32篇。那么,这些辞赋与其人生经历之间有何关联,它们反映了李德裕怎样的思想情感,又有哪些独特的艺术特质,在辞赋发展史上有何地位和影响,这些问题值得我们深入探讨。论文分为四个部分:第一章主要对李德裕的政治生涯、与辞赋名人的交往
随着互联网的飞速发展,数据资源不断积累,中文文本信息呈指数式增长,数据价值仍未被充分挖掘,尤其是在林业方面。进入现代以来,林业管理任务日益复杂,产生了大量冗杂的林业知识,当前迫切需要一种快捷高效的林业信息管理方法。近年来,研究人员开始探索将知识图谱应用于林业领域,知识图谱具有强大的语义处理和开放互联能力,有助于从冗杂的数据中快速提取有效信息,构建林业知识图谱可以融合碎片化林业文本数据,解决目前林业