论文部分内容阅读
医疗机构每天都会有海量的未标记的样本数据产生,医学诊断如果只使用那些有标记的样本,训练出的辅助诊断系统往往很难具有较强的泛化能力,同时造成大量未标记样本的浪费。为此,研究将主动学习算法应用于医学辅助诊断中,希望选择最有利于提高诊断性能的未标记样本或属性进行类别标记或属性填充,从而从整体上减少所要标记的样本数量。在实际应用中,当前的主动学习算法还存在如下不足和值得改进的地方:(1)目前的主动学习算法要么基于最近边界的方法来选取不确定性样本,要么基于最远边界的方法来选取确定性样本,或者二者结合。因没有考虑样本数据集的结构分布,所以容易陷入局部最优;(2)针对属性缺失的主动特征学习以单一的误分类代价最低为目标,不符合现实中存在的多种代价的实际情况(如查询代价);(3)主动学习算法在不平衡数据问题方面研究仅仅采用选择决策边界附近的相同数量的少数类和多数类样本,这样分类器所能分析的样本数量就会更少。为了避免陷入局部最优,研究了基于层次化聚类的探索数据集结构分布的策略,并采用兼顾探索和发掘的平衡策略,给出了一种对数据样本决策边界自动定位的新方法。考虑到现实生活中存在的多代价情况,针对属性缺失数据的主动特征学习,给出了一种兼顾误分类代价和查询代价的学习方法。该学习方法以适合增量采样的基于最大期望改变的预测误差算法为基础,引入了特征不确定性度量,以追求训练所得的分类器分类精度和综合代价均为最优。另外,为了避免引入过多的无用的新特征,使用适合处理属性缺失值的属性相关性度量方法进行属性选择。在处理类间不平衡问题时,概念复杂度、训练样本规模会影响分类器的准确率。因此,采用随机子空间算法来降低概念复杂度,利用主动学习采样和添加人工数据样本来提高训练样本集的规模,并通过对少数类的误分类赋予较高的权值来引导算法对少数类的关注。采用主动学习算法针对心血管疾病进行致病因素分析和诊断,并用湖北省疾病控制预防中心的真实的高血压疾病数据进行了实验。同时也针对公共数据集UCI中的医学数据进行了分析和诊断。实验结果表明,基于层次化聚类的主动学习算法具有快速、准确确定样本决策边界位置的能力,考虑综合代价的主动特征学习算法不仅能发掘相关属性的能力,也使得分类器具有更高的分类精度。面向医学领域的非均衡数据样本时,仍能得到较高的预测精度。