论文部分内容阅读
致病基因的研究是对遗传疾病的治疗具有重要的意义。近年来,高通量测序技术的高速发展为致病基因的研究带来了新的机遇,并涌向出大量的致病基因研究方法。这些方法基于已有的疾病或表型与基因之间的因果关系,使用网络构建方法对致病基因进行排序,从而达到致病基因筛选的目的。它们大多基于一个前提,即致使相同或相似疾病发病的基因在基因生物网络中邻近,存在着模块特性。但现有的方法对生物实体网络的邻接矩阵的构建较为粗糙,即存在关联关系的为1,否则为0,无法对基因之间的关联关系进行更合理的量化。此外,高通量测序技术产生了大量生物数据,使得集成数据分析方法成为目前致病基因研究的主要手段,但大多数方法都是基于生物实体的局部信息进行特征的构建,没有更好的扩展利用生物实体网络的拓扑特性。本课题研究的工作主要包括:第一,从另一种角度引入了研究生物实体间关系的方法,通过考察生物数据分布规律,来量化生物实体间的相对重要程度。基于此本课题引入两种统计特征量化数据间的关系。一种是计算基因表达数据的相关系数,用于分析基因间在功能上或者调控上对整个基因网络的重要程度;另一种是计算基因表达数据的信息散度,将基因的表达值作为基因表达的概率来量化基因间的表达分布,以此得到基因间的相互重要关系;与蛋白质交互网络数据的比对实验表明这两种统计特征的AUC、Top1和Top50在致病基因预测问题上优于后者,验证了所引入的两种统计特征对致病相关基因筛选的有效性。第二,提出一种随机游走算法的二元逻辑回归模型用于致病相关基因的预测。利用随机游走模型,对每一个基因进行关联基因的筛选,从得到与这个基因关联性强的基因中,分别从个数和权重这两个方面统计这些基因的全局信息,并用来构建基因的特征向量,得到了特征F1、特征F2和特征F3。第三,在特征F1下,三个不同的生物数据网络:蛋白质交互网络、基因共表达网络和基因通路网络中本章方法得到的AUC明显优于B Chen等人提出的特征“PCF1”、MRF算法和RWR算法得到的结果。在F2特征下,三个不同的生物数据网络中,本课题提出的算法的AUC结果高于B Chen等人提出的特征“PCF2”得到的结果。在特征F3下集成三种网络,本章提出的方法的AUC结果显著优于MRF算法、RWR算法、DIR算法和B Chen等人提出的特征“PCF3”的结果。此外还从时间效率上对这几种不同算法进行了比对,验证了本章算法更具有竞争力。