论文部分内容阅读
基于肿瘤基因表达数据,运用信息科学的方法和技术建立肿瘤的预测分类模型,对肿瘤的识别具有重要意义,也是当前生物信息学研究的重要课题。本文针对肿瘤识别问题,以前列腺癌为研究对象,从系统科学和信息科学的角度,采用机器学习和计算机技术,就前列腺癌的特征基因选取问题和预测分类问题,基于基因表达数据进行了研究,取得如下研究成果:第一,针对前列腺癌特征基因选取的研究
本文在信噪比指标的基础上提出了用于前列腺癌特征基因选取的CLUSTERS2N方法。该方法首先对基因进行聚类,然后选出每一类的“代表基因”作为特征基因。与信噪比指标相比,CLUSTERS2N方法在选取特征基因过程中既考虑了基因与样本类别之间的关系又考虑了基因与基因之间的关系,从而修正了信噪比指标的缺点。用两种指标选取基因在不同分类模型上进行分类预测实验,结果表明,用本文提出的方法选取的基因包含更多的分类信息。
第二,针对前列腺癌预测模型的研究
本文建立了两种肿瘤预测模型,分别是三层BP网络模型和支持向量机(SVM)模型。其中首次将支持向量机(SVM)应用到前列腺癌预测问题上。并将这两种模型与Singh.D等人的k-近邻法模型相比较,通过比较不同特征基因集合在三种模型上的分类准确率,确定了一个71个基因的特征集合,基于这个集合利用支持向量机可取得100%的预测准确率。对这三种模型分类性能的对比研究的结果表明,支持向量机(SVM)优于其它两种方法,是解决前列腺癌预测问题的有效工具。
本文的研究有助于肿瘤与基因关系的理解,有助于肿瘤特征基因的选择,肿瘤的自动分类。