基于K近邻一随机森林集成算法的肝病预测研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:LittleCam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:为了提高肝病预测准确率,提出一种基于K近邻一随机森林算法的肝病预测集成模型。首先对UCI数据集中的印度肝病数据集进行数据预处理;然后分别采用K近邻和随机森林算法构建出肝病预测的弱分类器;最后将两个弱分类器利用voting策略进行集成以获得集成肝病预测模型。同时分析了特征对模型的贡献程度。实验结果表明模型的性能指标F1一分数取得了84%的良好表现。因此利用该集成模型可为医生的临床诊断提供支持。
  关键词:肝病预测;K近邻;随机森林;集成模型;F1-分数
  中图分类号:TP391 文献标识码:A
  文章编号:1009-3044(2020)13-0204-02
  1引言
  由于病毒感染、过量饮酒,吸人有害气体以及摄人受污染的食物、咸菜和毒品等,近年来,肝病患者一直在不断增加。慢性肝病容易诱发肝纤维化,若不及时诊治会诱发为肝硬化甚至恶化为肝癌。根据相关数据显示,全球肝癌及肝硬化死亡人数由1990年的130万人上升至2010年的180万人。原发性肝癌在2015年全球最常见癌症中排第六位。5%至20%肝硬化病例会演变成肝癌,而超过50%的原发性肝癌由肝硬化引起。由于肝癌通常于末期才可确诊,故死亡率居高不下,五年存活率约为5%。因此,在恶化成肝癌前,能够及时有效地确诊患者肝部疾病对于保障患者的生命健康起到至关重要的作用。
  随着计算机技术及人工智能理论的发展,在医疗领域,将机器学习算法应用于疾病诊断的研究十分广泛。刘宇、王健等将XGBoost和卷积神经网络应用于心脏病预测研究中,葛皓昀将K近邻算法应用到肝炎预测中取得了较好的预测效果,此外,一些经典的机器学习算法如SVM,随机森林也被应用到相关疾病预测的决策问题中。因此考虑将机器学习的方法应用于肝病患者的诊疗中,一方面为医生的临床诊断提供指导帮助,另一方面也可有效提高医生的诊疗效率。在借鉴上述工作的基础上,本文提出一种基于K近邻一随机森林算法的集成学习策略,借助于集成学习良好的泛化性能及学习能力,将其应用于患者肝病诊断问题研究中。
  2K近邻一随机森林的集成肝病预测模型构建
  K近邻(K nearest neighbour,KNN)算法作为常用的监督学习算法之一,广泛应用于分类问题中。应用K近邻算法进行分类的核心思想是通过度量特征空间中样本之间的相似性,获得距离目标点最近的k个点,然后根据少数服从多数的分类决策规则,将k个点中类别标签数最多的类赋予目标点,从而确定目标点的分类。K近邻算法因原理简单,对异常值不敏感,使用起来较为方便,且分类效果较佳,得到了广泛的应用;但由于K近邻算法度量距离时其复杂性依赖于数据集的大小,当样本量较大时其计算复杂度较高,并且容易过拟合,因此在实际应用中也常将K近邻算法与其他算法结合使用以提高模型的泛化能力。
  集成学习(ensemble learning)是时下非常流行的机器学习算法。它本身不是一种独立的机器学习算法,而是一种学习策略,基于数据构建出多个弱分类器模型,然后集成所有模型的建模结果,广泛应用于市场营销、疾病风险预测、金融风险评估等领域。集成学习算法常见的有袋装法(bagging),提升法(boosting)等。随机森林是隶属于bagging集成学习算法中的一种经典算法,其以决策树作为弱分类器,通过构建多棵决策树形成的随机森林对目标样本进行决策。森林中的各个决策树是独立的,将若干个弱分类器决策树的分类结果进行投票选择,从而组成一个强分类器,这就是随机森林bagging的核心思想。
  本文采用KNN算法和随机森林算法作为弱分类器,分别针对肝病数据集建立预测模型,然后采用投票(voting)策略对两个弱分类器进行集成,其流程图如图1所示。
  步骤一,将原始数据进行预处理后按照训练测试集比例7:3进行划分,基于训练集分别采用KNN算法和随机森林算法构建出弱分类器;
  步骤二,对构建出的两个弱分类器模型采用投票法进行集成,构建集成模型;
  步骤三,计算模型的评价指标以评估模型的性能。
  3实验结果与分析
  3.1数据集描述
  本文研究的肝病数据集来源于印度安得拉邦东北部收集的共583条患者数据记录,其中确诊肝病患者为416例,无肝病者为167例。该数据集性别分布为:男性441位和女性142位。样本集中每个样本具有10个特征及1个类别标签属性,其中类别标签标明了患者肝部是否患病。而10个特征分别记录了每位患者的性别、年龄及一些生理指标信息。特征列表如表1所示。
  通过表1可以发现,该数据集的10个特征中大部分均为连续值属性,仅性别为离散型二值属性;而连续值属性中如碱性磷酸酶、铝胺转氨酶及天冬氨酸转氨酶等取值极差较大,如果不加处理则会对最终预测结果造成干扰。因此,对这类数据采用标准化方法进行处理。另外,数据集中有4位患者的白蛋白和球蛋白比存在缺失值,针对这四条缺失的记录,采用中位数进行填充。
  3.2模型评估标准
  该医学问题事实上是个分类问题,分类模型的评价指标有准确率(Accuracy)、查准率(Precision)、查全率(Recall)、Fl一分数等。基于医学问题的特殊性,本文分类模型的主要目的是正确筛查出患有肝病的病人。假设患有肝病的样本为正类样本,则未患病的样本为负类样本。在该问题中,我们更关注正类样本被有效识别为正类的准确性,即正类样本的查准率和查全率指标。因此在下面的模型评估指标中选取预测准确率,正类样本的查准率、查全率及F1-score作为模型的评价指标。
  3.3实验结果分析
  本实验的实验环境为:CPU为Intel i5 2.39GHz;RAM为4GB。采用skleam模块进行程序实现,实验参数选取采用网格搜索法确定K近邻的最佳K值为21,随机森林中决策树的个数为9。基于训练集训练后的弱分类器模型及集成模型在测试集上的性能表现如表2所示。
  由表2可以看出,采用KNN算法及随机森林算法构建的集成模型融合了两种算法的优势,使得模型的分类准确率和F1-分数得到了提升,泛化性能较为优越。
  由于集成模型中的随机森林仍然属于树模型,对于树模型可以判断每个特征变量对模型的贡献程度,从而判断哪些特征变量对于患肝病的影响更为显著,为医生临床诊断提供参考指标。图2绘制了各个特征对于预测模型的重要性程度。
  如图2所示,其中排在前5位的F2,F4,F5,F0,F6分别代表特征总胆红素、碱性磷酸酶、铝胺转氨酶、年龄、天冬氨酸转氨酶。因此患者应着重关注这些指标,将他们控制在正常范围内以降低患病的概率;而患病风险一般是随年齡增长而增加,因此对于年长者也应格外关注自己的这些指标。对于医生在后续的临床诊断中也可参考这些指标的数值作为诊疗判断依据。
  4结论
  本文使用uCI数据集中的印度肝病病人数据集展开研究,提出一种基于K近邻和随机森林的集成模型用于预测病人的肝脏是否患病。实验结果表明,该集成模型提高了样本集的泛化能力。此外,针对用于建模的特征集合进行了重要性的评估,找出了对模型贡献程度较高的一些指标,为患者的就医指导提供了相关依据,同时也对医生的临床诊断具有一定的参考价值。
其他文献
摘 要:文章以对《金融基础知识》在线课程的交互学习活动设计为例,依据联通主义学习理论和教学交互层次塔理论,着重探讨了在“互联网 教育”背景下交互学习活动设计的理念及思路。研究表明,基于Moodle平台的在线课程可以满足精心设计自主学习活动、师生交互活动、生生交互活动的交互学习活动的需求,进而提高远程学习者的学习效果。并通过反思提出了在线课程交互学习活动的设计还要处理好教师、学习者以及其他互联网环境
心情不好的时候,看看周围都是灰色。今天让我们一起来做一棵四季的树,看着绚烂色彩的变换,心情也会阳光起来哦!  准备材料:白色和蓝色纸盘、丙烯颜料、画笔、双脚钉。  1.将白色纸盘涂上好看的颜色,颜色越丰富越好。  2.在蓝色纸盘上用咖啡色画出大树的树干。  3.在樹干顶端剪出树冠的样子。  4.用双脚钉将蓝色纸盘和涂色后的白色纸盘固定在一起。  这样一个绚丽多彩的树就做好了,转一转可以随意变换颜色
摘 要:文章以《学法大视野》丛书为例,介绍了其在智慧型教辅产品设计方面的开发与探索,主要包括提供满足学习需求的在线增值内容、构建“学—练—测—评—帮”的线上教辅服务、实现以班(年)级为单位的考试阅卷测评服务等三个方面,并对智慧型教辅的应用模式进行了探究。   关键词:智慧型;教辅;学法大视野   中图分类号:G624 文献标志码:A 文章编号:1673-8454(2020)0
1 超导体的发现  超导体发现至今已有100年;1911年,荷兰莱顿大学的卡茂林一昂尼斯意外地发现,将汞冷却到-268.98℃时,汞的电阻突然消失。卡茂林一昂尼斯称此态为超导态,并把处于超导状态的导体称之为“超导体”。由于他的这一发现卡茂林获得了1913年的诺贝尔物理学奖。  2 超导体的特性  导体没有了电阻,电流流经导体时就不会发生热损耗,便可以毫无阻力地在导体中流动,从而产生超强磁场。
摘要:芜湖市信息惠民试点城市建设工作组织保障有力,各重点惠民领域齐头并进,综合成效显著,公众满意度较高,在信息共享平台搭建、社会服务管理信息化建设、整合政府信息为民服务等方面已经达到了较高的水平,信息惠民整体工作在安徽省具有示范作用。该文以芜湖市信息惠民工作为研究样本,对芜湖市试点工作进行全面评价并提出下一步工作建议,力图提出城市信息惠民城市建设的综合解决方案。  关键词: 互联网;电子政务;信息
勇敢是什么?我一直不明白。但是,我觉得我很胆小,不敢一个人在家,不敢自己过马路??直到有一天,我终于知道了什么是勇敢。  那天,妈妈带我去玩探险攀爬架。  一开始有教练带着,我一点儿也不害怕;第二次前后有人,我只有一点点害怕;第三次独自一人在高高的空中,又紧张又害怕,一分心滑了一下,吓得心都要跳出来了。我双腿发软,手脚冰凉,好希望自己有一对翅膀,马上飞到地面上,但我没有,不知如何是好,害怕地哭了。
一天,鼠小弟闻到猫先生家传来一阵清香,非常好奇,心想:猫先生又买回来什么好吃的?是可口的饼干,还是甜甜的香蕉?鼠小弟决定去猫先生家看一看。  到了猫先生家,鼠小弟一看,原来是美味的草莓。他忍不住跳上桌子,開心地吃了起来。这时,猫先生听到声音,进来一看,呀!原来是鼠小弟又来偷吃了!猫先生当场把鼠小弟捉住,大声喊道:“你咬坏了主人心爱的皮鞋,还有主人女儿最心爱的娃娃,现在又偷吃我的草莓,你必须给我一个
摘要:本系统公开了智能交通控制系统,属于控制技术领域。智能交通控制系统,算法A与B按照规定执行,由于现实中的交通灯红绿交替致使并无绝对的A先执行或是B先执行,本说明中只取一个概述的形式来描述,在具体实施中会给出一个截断的时间点详细、有序的说明。A:车辆方向通行时间结束的3s前;执行算法A计算接下来给行人通过马路的预留时间。本系统可以有效地解决交通路口的人车拥堵现象。  关键词:交通;智能管理;物联
摘 要:本文以一道圆周运动问题的讲解为例,先展示学生的错误,然后引导学生一起去讨论、辨析错误产生的原因,学生在讨论小球究竟在什么位置时磅秤读数会最小的过程中,碰撞出智慧的火花,课堂因学生的错误而精彩。  关键词:错误;碰撞;精彩;案例  中图分类号:G633.7 文献标识码:A 文章编号:1003-6148(2015)11-0033-3  课堂是什么?课堂是生成智慧、陶冶情感的园地;课堂是师生之间
摘要:Struts是基于MVC模型的Web应用软件开发框架,文中阐述了Struts的体系结构及主要组成组件,并以BBS系统实现为实例,讨论如何设计基于Struts框架的应用,同时也分析了使用Struts框架开发web应用的优势。  关键词:Struts;模型;视图;控制器;MVC  中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2009)15-3951-02    The