论文部分内容阅读
基因表达数据是通过DNA微阵列技术获得的关于一组基因表达过程及其调控信息的定量描述。研究基因表达数据,获取有意义的基因簇,对于研究生物现象背后的本质、遗传性疾病的诊断等有着重要意义。然而,由于基因表达数据中样本数远远小于观测的基因个数的特性及其在采集过程中产生的噪音数据使得单一依靠该数据源进行的聚类分析往往缺乏稳定性、可靠性,从而影响了预测的准确性。本文从多源信息融合的角度来研究基因表达数据的聚类分析技术,融合基因本体(GO),KEGG pathway等信息,以求获得稳定、可靠、共表达的基因类簇。其主要工作如下:1.选择网上公用的YEAST基因组数据作为测试数据,采用潜在语义分析方法对YEAST基因组的基因表达数据进行降维和去噪处理,并用欧氏距离的方法对数据相似性进行了度量;我们采用语义相似性度量的方法计算基因本体数据的相似性,并用Bioconductor软件对基因本体数据的相似性进行了度量。2.使用线性融合方法,从相似性度量的角度融合YEAST基因组的表达数据、本体数据,并用PAM(中心点划分)算法对基因表达数据,融合数据分别进行了聚类。结果表明线性融合算法可以大大提高基因表达数据的聚类效果。3.针对线性融合方法无法确定融合系数的问题,提出一种新的基于排列的融合方法。该方法将基因表达、基因本体的相似性度量值按大小排列的顺序给定序号,将序号作为融合系数进行数据的融合。从而可以自动获得融合的系数,算法上更具操作性。4.针对普通评价方法无法从功能上来评价基因表达数据聚类的有效性问题,提出用KEGG pathway数据从生物的生化功能上来评价聚类结果的有效性和意义。使用KEGG pathway方法进行评价时,证明半数以上的类别是可学习的。本文从多源信息融合的角度对基因表达数据进行聚类分析和评价,获得了较好的实验结果。然而融合的策略相对来说,还是比较简单,对各部分数据源在聚类效果中所起的作用还缺乏系统的理论证明。所以下一步的工作是:一方面,通过实验的方法,对更多的基因组数据进行测试,来验证算法的有效性;另一方面,运用信息论的方法,研究多源信息证据在基因表达数据聚类中的作用,为实现更加有效的融合策略提供理论依据。