主动学习算法及其在心血管疾病诊断中的应用研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:frankcody
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医疗机构每天都会有海量的未标记的样本数据产生,医学诊断如果只使用那些有标记的样本,训练出的辅助诊断系统往往很难具有较强的泛化能力,同时造成大量未标记样本的浪费。为此,研究将主动学习算法应用于医学辅助诊断中,希望选择最有利于提高诊断性能的未标记样本或属性进行类别标记或属性填充,从而从整体上减少所要标记的样本数量。在实际应用中,当前的主动学习算法还存在如下不足和值得改进的地方:(1)目前的主动学习算法要么基于最近边界的方法来选取不确定性样本,要么基于最远边界的方法来选取确定性样本,或者二者结合。因没有考虑样本数据集的结构分布,所以容易陷入局部最优;(2)针对属性缺失的主动特征学习以单一的误分类代价最低为目标,不符合现实中存在的多种代价的实际情况(如查询代价);(3)主动学习算法在不平衡数据问题方面研究仅仅采用选择决策边界附近的相同数量的少数类和多数类样本,这样分类器所能分析的样本数量就会更少。为了避免陷入局部最优,研究了基于层次化聚类的探索数据集结构分布的策略,并采用兼顾探索和发掘的平衡策略,给出了一种对数据样本决策边界自动定位的新方法。考虑到现实生活中存在的多代价情况,针对属性缺失数据的主动特征学习,给出了一种兼顾误分类代价和查询代价的学习方法。该学习方法以适合增量采样的基于最大期望改变的预测误差算法为基础,引入了特征不确定性度量,以追求训练所得的分类器分类精度和综合代价均为最优。另外,为了避免引入过多的无用的新特征,使用适合处理属性缺失值的属性相关性度量方法进行属性选择。在处理类间不平衡问题时,概念复杂度、训练样本规模会影响分类器的准确率。因此,采用随机子空间算法来降低概念复杂度,利用主动学习采样和添加人工数据样本来提高训练样本集的规模,并通过对少数类的误分类赋予较高的权值来引导算法对少数类的关注。采用主动学习算法针对心血管疾病进行致病因素分析和诊断,并用湖北省疾病控制预防中心的真实的高血压疾病数据进行了实验。同时也针对公共数据集UCI中的医学数据进行了分析和诊断。实验结果表明,基于层次化聚类的主动学习算法具有快速、准确确定样本决策边界位置的能力,考虑综合代价的主动特征学习算法不仅能发掘相关属性的能力,也使得分类器具有更高的分类精度。面向医学领域的非均衡数据样本时,仍能得到较高的预测精度。
其他文献
创业型社会,无论是个人、社会还是政府都是创业者。个人创业是创造财富;社会创业是形成创业支持能力和实践支持行为;政府创业是组织和引导社会构建创业支持系统。创业环境、
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的药物安全性的基因组学在基因水平探讨遗传因素(基因型)与药物反应及安全性之间的关系。方法采用单核苷酸多态性分析、DNA芯片、基因表达连续分析等先进的基因检测、诊断技
该文从叙事学角度出发,试图去探究殷墟博物馆前导空间设计的方法;探求如何在博物馆前导空间设计中运用叙事的手法来对空间内容进行整合以及诠释内容,从而创造出深刻感染的空
德国职业教育一直在世界上享有盛誉。研究德国和我国在各自发展职业教育过程中的不同特征,通过对德国所采取的这一系列措施的解剖,提出几点建议,以期对我国职业技术教育发展
目的分析研究不同剂量右美托咪啶在气管插管诱发患者心血管反应控制中的效果对比。方法选取2016年5月~2017年5月夏邑县人民医院收治的80例全身麻醉下行择期上腹部手术患者作