非均衡学习及在产前筛查高风险预测中的应用

来源 :河北大学 | 被引量 : 3次 | 上传用户:helppeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的机器学习方法应用于均衡数据能够取得较好的学习效果,但是处理非均衡数据时,基于误差最小化原理的学习机制往往导致结果偏向多数类,而所占比重较低的少数类则会被忽略。现实生活中非均衡数据大量存在,少数类更是研究的重点,如何既提高整体的分类性能,又提高少数类的分类性能成为研究的难点。产前筛查的数据作为典型的结构型非均衡数据,机器学习方法在该领域的应用研究较少。一般采用传统方法即通过化验甲型胎儿蛋白(AFP)、人绒毛膜促性腺激素(h CG)以及游离雌三醇(u E3)在孕妇血清中的浓度再参考孕妇的体重、年龄等因素,计算出孕妇怀有唐氏综合症、爱德华氏综合征、开放性神经管缺陷胎儿的危险值。而产前筛查高风险计算软件多为国外公司设计,计算方法不公开。而且传统的产前筛查方法存在30%漏诊的现象,即不能检测出所有的患病胎儿。为了解决非均衡数据关于少数类分类性能差,数据压缩耗时的问题;实现产前筛查高风险计算系统的模拟;提高产前筛查的真阳性率,降低传统方法漏诊率,本文将从以下4个方面对非均衡学习及其在产前筛查高风险预测中的应用展开研究,并提出了基于非平稳割点的样例选择方法、基于重采样的ELM集成学习方法、基于可调节因子的加权ELM方法,以及产前筛查高风险预测模型和辅助决策模型。(1)将非平稳割点的概念引入样例选择中,提出了基于非平稳割点的样例选择方法UCBSS。理论上证明判别函数是凸函数并以其极小值作为割点划分样例空间的分类器,其划分割点为非平稳割点。对于每个属性均标记出非平稳割点相邻的样例,将含有非平稳割点信息较多的样例保留,组成非平稳样例子集。对于删除的不含有非平稳割点信息的样例,理论上也证明能被剩余样例学习的分类器正确分类。在人工数据集和UCI数据集上的实验也表明该方法适用于非均衡度较高的大数据的数据压缩,在同传统数据压缩方法CNN的比较中,显示了该方法时间上的优势。此外实验采用判别函数不是凸函数的分类器达到了相同的效果。当分类器的判别函数是凸函数时,该方法还适用于噪音比较高的大数据的压缩。(2)基于重采样的ELM(极速学习机)集成学习方法结合重采样技术和集成学习,充分利用少数类的样例信息,并考虑在随机欠采样多数类的过程中子样和母体的关系,在重新构成的多个数据集上训练ELM方法,再通过投票确定最终结果。实验过程在多个改造的UCI数据集上进行,实验结果表明该方法优于随机欠采样和CNN分别结合ELM的方法。此外,当非均衡度较高时,可以首先使用UCBSS方法降低非均衡度,再使用基于重采样的ELM集成学习方法,实验结果显示在提高方法执行效率的同时,能够保持甚至提高整体的分类性能。(3)加权ELM根据多数类和少数类的样例数目赋予多数类和少数类不同的权重,但是这种权重仅参考类别本身数量,且是固定值,实验的结果也表明其他的权重能够得到更好的结果。本文提出基于可调节因子的加权极速学习机方法WELMAF,权值设置考虑了类别之间的关系,采用权重1作为多数类的初始权重,多数类和少数类的样例数目比值作为少数类的初始权重。采用2种方案分别在少数类或多数类的权重上添加调节因子,另一类的权重保持不变。两种方案因为所要调节的权重不同,调节因子的取值范围和步长有所差别,通过实验比较给出了合适的调节范围和步长,并得到了优于原加权ELM的分类性能。(4)首先对产前筛查的数据进行预处理,删除冗余特征,噪音样例。采用5种预测模型(决策树、ELM、基于重采样ELM集成学习方法、加权ELM、WELMAF分别与UCBSS方法相结合)模拟产前筛查高风险计算系统,通过实验对比,UCBSS结合决策树的预测模型的测试性能最高,与目前的高风险计算系统得到的结果最接近,尤其18-三体综合征和开放性神经管缺陷的预测精度接近100%。通过在唐氏筛查的模拟诊断数据上进行实验,运用UCBSS结合WELMAF构成的产前筛查辅助决策模型,识别了全部的唐氏综合征病例,降低了漏诊率,并使假阳性率在可接受的范围内,可以避免更多患病胎儿的出生。
其他文献
针对电力变压器油纸绝缘老化过程中的机理以及研究水分因素对变压器的油纸绝缘的影响对于变压器的状态评估、故障诊断及寿命预测有着非常重要的意义,本文通过对电力变压器绝
目的:观察治未病思想对银屑病患者焦虑和抑郁状态的影响,为社区及家庭治疗银屑病提供干预方案和科学依据。方法:采用随机对照,应用SDS(焦虑自评量表)、SAS(抑郁自评量表)对治疗前后
卵巢癌发病率位居女性生殖系统恶性肿瘤第三位,起病隐匿,诊断时多数已到晚期,病死率高,治疗后易复发,容易产生化疗耐药,预后差。阐明卵巢癌发生发展的分子机制、筛选异常表达
21世纪初,外国学者提出了“战略性创业”这一概念,但在国内创业实践中尚鲜为人知。理论研究与实践均证明,实施战略性创业,可以明显地提高创业的成功率。对一个新创立的企业而