论文部分内容阅读
随着生物技术的发展,DNA微阵列数据为基因诊断、基因治疗等提供了前提和可能性。基因选择是基因诊断的基础,如何在超高维小样本的基因表达数据中选择那些与疾病相关、对疾病分类有用的诊断基因,保证基因诊断的有效性和可靠性,成为了一个具有挑战性的课题。本文针对基于SVM的多病类诊断基因选择方法进行了研究。从对两病类的基因分类贡献表示的讨论入手,提出了四种基于SVM的多病类基因选择方法:(1) 基于和贡献的基因选择方法,将基因分多个病类对的贡献求和,作为该基因分所有病类的总贡献,进行基因选择;(2) 基于类模式的基因选择方法,从类中心之间的分类间隔考虑基因分病类对的贡献;(3) 基于相关性的贡献空间方法;(4) 基于相关性的和贡献基因选择方法。它们都是基于one-versus-one方式多类SVM分类方法进行基因选择的,其中,方法(1) (2) 对所选基因相关性无约束,方法(3) (4) 对所选基因Pearson线性相关性有约束。通过用真实的基因微阵列数据进行大量实验,本文在4种病类2308个基因中选择出的性能最好的基因子集包含7个基因,在3种病类4026个基因中选择出的性能最好的基因子集包含7个基因。选择出的诊断基因不但数目少,诊断能力也很强,表明了本文提出的几种方法的有效性。