论文部分内容阅读
随着基因芯片技术的快速发展,越来越多的肿瘤基因表达数据得以测定。依据基因表达数据,在分子生物学水平上进行肿瘤早期诊断具有重要意义。及时、准确的诊断将有利于后续治疗的成效,而误诊则可能使癌症患者错过最佳治疗机会。然而,基因表达数据具有高维、分布不平衡、样本数量少等特点。怎样有效地分析、处理和利用此类数据引起学者们的广泛关注。针对肿瘤基因表达数据的分类问题,由于存在大量冗余基因及噪声,基因表达数据的分类性能尚未达到实用水平,当前的研究重点在于:①如何从高维数据中提取出少数关键的致病基因;②寻找最适合的分类算法并提高其分类性能。本文主要借助神经网络和极限学习机(Extreme Learning Machine,ELM)来构建分类模型,预测肿瘤基因表达数据,提出的方法在多种肿瘤数据集和非肿瘤数据集上进行实验验证。主要研究工作如下:1)针对高维基因表达数据降维问题,提出了一种基于信息增益和遗传算法的基因选择方法,将特征基因选择转化为全局优化问题。在遗传算法搜索阶段,把类间距离与类内距离之比作为适应度函数,设计与模型无关的基因选择算法,降低数据维数。实验表明,经选择得到的各个特征与分类目标密切相关,提高分类器的泛化能力。2)针对基因表达数据的不平衡、小样本等问题,通过扩充小类样本规模和减少大类样本规模的思路以达到类别平衡。先经过特征选择过程保留对分类起关键作用的特征,再参照SMOTE过抽样理论,提出了FS-Sampling算法。实验表明,提出的方法能很好地平衡数据分布,能有效降低数据的不平衡性,明显提高少数类的分类精度。3)为解决数据分布对神经网络模型逼近精度的影响以及单个ELM性能不稳定问题,从数据层面着手构建集成分类器,研究了基于数据集差异的集成策略,提出一种基于样本集分割的集成算法。首先,将样本集分割为k等份;然后,从其中k-1份中随机抽样组成训练样本集,重复迭代n次训练n个基分类器;最后,利用多数投票法进行分类器集成。实验证明,该算法能提高基分类器之间的差异度,有效提高集成分类精度。4)针对单个ELM性能不稳定问题,从分类器输出结果差异的角度出发集成分类器,提出了一种基于输出不一致测度的ELM相异性集成算法(D-D-ELM)。首先,以输出不一致测度为标准对多个ELM模型进行相异性判断;然后,根据ELM的平均分类精度剔除相应的模型;最后,对筛选后的分类模型通过多数投票法进行集成。对该算法进行了理论证明和实验验证,实验结果显示该算法能够以更少的模型数量达到较稳定的分类精度。5)针对降低决策风险、减少平均代价等问题,以最小分类代价为目标,探讨了嵌入拒识代价和非对称误分类代价的分类问题,提出了嵌入误分类代价和拒识代价的ELM算法。通过在算法中嵌入代价敏感因素,使得嵌入代价因素的ELM能够直接处理具有不同代价的数据。实验证明该算法能有效降低平均误分类代价,提高分类的可靠性。综上所述,针对肿瘤基因表达数据分类任务中的挑战性问题,在解决高维小样本、数据降维和分布不平衡问题方面,综合提出了有效的基因选择和过抽样合成等方法。这些方法不仅可以提高分类器的性能,而且排除了大量无关基因干扰,有利于定位对疾病有鉴别力的特征基因,有助于相关疾病诊断。在数据分类中,提出了基于神经网络及ELM的集成分类模型,实现了基于数据集差异和分类器输出结果差异的集成算法,并在算法中嵌入代价敏感因素以体现肿瘤识别过程中不同数据的重要性。上述工作构建了一种适用于基因表达数据分类问题的算法框架,提高了肿瘤基因表达数据的分类精度,一定程度解决了该研究领域的难点问题,对于推进高维、不平衡数据的研究具有重要理论意义和实用价值。