论文部分内容阅读
后基因时代,随着基因芯片技术的广泛应用,基因芯片实验数据爆炸式地增长。早期主要以聚类算法探索完全未知的基因表达模式。随着基因分类、基因表达模式的逐步明朗,许多更有效的有监督学习算法得到了广泛应用,准确、高效地预测未知基因的功能。支持向量机由于自身诸多优良的特性,使其在基因表达谱数据分析方面颇具吸引力。但是,极其有限的生物实验结果相对于巨大的基因芯片数据来说,所提供的已知信息非常贫乏却很宝贵。如何针对基因表达谱数据的这一特点,进行有效地SVMs分析,鲜有文献报道。本文正是针对这一特点,从拟南芥根部基因表达数据分析这一典型实际例子出发,对基因表达谱数据分析进行深入的研究。
本文主要研究工作如下:1.针对类别数未知,但有极少量已知类别训练点的拟南芥根部基因功能分类的问题,提出了一种基于距离度量学习的多分类支持向量机算法。
2.提出一种推理型多分类支持向量机,并将其转化成一个无约束最优化问题来求解。并将其应用于拟南芥根部基因表达数据分析中,为基因表达数据分析提供了一种新途径。
3.讨论了一种半监督支持向量机模型,该模型将半监督分类的组合优化问题转化成半定规划问题来求解。运用半定规划软件包,完成了算法的具体实现。为基因表达数据分析提供了又一种新方法。
总之,本文针对基因表达谱数据分析问题的先验知识极其贫乏的特性,研究并提供了三种不同的分析方法,数据试验验证了它们的有效性。