论文部分内容阅读
基因芯片技术是随着“人类基因组计划”而发展起来的一门新兴技术,能同时对大量的遗传信息进行高效、快速的检测,因而被广泛的应用于研究肿瘤发生发展过程中的基因表达情况。由此产生的基因表达谱数据具有小样本、高维度的特点,给数据分析提出了新的挑战。如何选择合适的方法进行肿瘤样本分类,提取尽量少的具有分类识别能力的特征基因,认识肿瘤产生和发展的机制并最终达到临床治疗的目的,是当前面临的关键性问题。因此,本文将研究重点放在利用偏最小二乘法法分析肿瘤基因表达谱数据、选择分类特征基因上,
主要做了如下工作:
(1)对偏最小二乘法的数据降维性能进行了评价。利用SVM验证提取的PLS成分对样本的分类效果。与2种常用的降维算法主成分分析(PrincipalComponents Analysis,PCA)和随机森林(Random Forest,RF)进行比较。在实验所选的5组肿瘤数据上的结果显示,偏最小二乘法是一种处理高维数据的有效方法。
(2)提取的PLS成分虽然能很好的将肿瘤样本分类,但是很难对成分进行解释,不能直接得到相关的特征基因,因此本文提出了一种直接利用偏最小二乘提取特征基因的方法--逐步回归提取基因子集法。在提取PLS成分过程中,得到所有参与实验的基因的权重,计算所有大于0的权重的平均值w1,和所有小于0的权重的平均值w2,将w1和w2作为阈值,权重大于w1或者小于w2的基因取出继续下一步实验。在每一步提取过程中都用提取的基因子集进行分类验证,使得偏最小二乘法能直接进行特征提取。将这种方法用于北京肿瘤医院提供的两组肿瘤数据中,分别得到5个和8个特征基因,并进行了样本分类验证,取得了很好的效果。
(3)将偏最小二乘法与遗传算法结合,改善了传统偏最小二乘法的内部映射机制,将遗传算法强大的非线性拟合能力引入到偏最小二乘算法中,形成一个更加稳健的算法模型。将遗传算法-偏最小二乘(GA-PLS)应用于两组胃癌表达谱数据,提取55个和53个被选择频率较高的基因,并用SVM验证所选特征基因的分类效果。
(4)由于每种提取特征基因的方法都有其局限性,因此,本文最后将逐步回归提取基因子集法、GA-PLS方法和微阵列显著性分析方法分别用于肠型胃癌和弥漫型胃癌的数据表达谱中,各自提取出72,57,76个特征基因子集,然后取这3个子集的交集,最终得到4个特征基因:ZNF583、UBE2CBP、RPE65、LOC152742。在文献中能找到关于前三个基因的介绍,第四个基因目前还没有人研究。用这4个基因对样本进行分类的正确率为93.94%并且用这四个基因做了Gene Ontology分析。