论文部分内容阅读
随着高通量测序技术的发展,基因组数据出现爆发式增长。转录调控作用、转录后调控作用和蛋白质相互作用等数据的出现,对于系统研究基因、蛋白质等分子的生物功能,理解生物体的分子机制和复杂疾病的发病原理具有重要意义。采用计算机技术分析组数据也是当前生物信息学的一个研究热点。 共调控网络包括转录因子、miRNA和目标基因,以及各类型节点之间的相互作用关系,充分展现了转录因子、miRNA和目标基因协同作用的特性。采用数据挖掘方法分析共调控网络为研究细胞生物过程提供重要的工具。由于共调控网络融合了多源数据,使得功能模块识别方法面临更多挑战。本文在分析网络拓扑特征和产生特定拓扑特征的网络演化过程基础上,设计算法识别功能模块,并将预测的功能模块应用于发现疾病关联因子。主要研究工作如下: (1)通过分析蛋白质相互作用网络的相互作用密度,发现蛋白质之间的相互作用与年龄高度相关,相同年龄的蛋白质更倾向于形成相互作用。针对现有网络构建模型在模拟蛋白质演化过程时没有考虑相互作用蛋白质的年龄关系的问题,提出一种新的基于年龄的复制分歧模型ADD。此模型随机选择网络节点进行复制,在分歧过程中通过改变删边概率和添边概率,使相同年龄蛋白质之间的相互作用被保留的概率更高。并针对生成模型不能追踪网络中一个单独节点的历史的问题,提出基于年龄的逆复制分歧模型IADD。与现有方法相比,ADD模型生成的网络不仅与五个酵母蛋白质相互作用网络具有相同的拓扑特征,如节点度分布等,而且具有一致的相互作用密度。相比于其他方法,IADD模型回溯酵母蛋白质相互作用网络预测节点年龄的准确度更高。研究网络拓扑特征的形成机制,为设计有效的功能模块识别算法提供了依据。 (2)针对现有功能模块识别算法不能对共调控网络中功能相同但共有邻居较少的调控子和目标基因组成的模块进行有效识别的问题,提出一种新的基于基因相似核扩展的功能模块识别算法CGSCE。首先利用余弦相似性获得与每个基因关联度最高的转录因子和miRNA,构建基因相似核;然后以基因相似核为基本单元,在网络中从种子基因相似核出发,不断扩展临近相似核识别功能模块。扩展过程中为调控作用增加权重,从而增加模块的聚集度,使功能模块内包括更多功能相似的调控子。与现有功能模块识别方法相比,所提方法在两个人类共调控网络上识别的功能模块更显著的富集于基因本体论和已知路径。 (3)针对共调控网络中不同类型节点聚集系数相差较大,而且CGSCE算法识别的功能模块中协作的miRNA和转录因子较少等问题,提出一种新的基于调控子模块和基因模块间带重启的随机游走的功能模块识别算法RWRRGM。首先采用邻居节点扩展方法,分别在调控子子网络和基因子网络上识别子模块;然后将识别的子模块作为节点构建模块网络;最后利用带重启的随机游走策略查找最相似的调控子模块和基因模块,并融合产生共调控网络中的功能模块。通过对人类共调控网络上识别的功能模块进行基因本体论和路径富集分析,发现与现有方法和CGSCE相比,RWRRGM算法预测的模块中具有生物意义的模块占比更高。另外利用识别的模块所预测的关键调控子,不仅参与到多个生物过程中,而且通过调控更多的关键基因影响共调控网络。研究功能模块识别为分析网络中多因子之间协作完成特定功能提供方法。 (4)针对现有疾病关联因子研究较少考虑多因子协同作用的问题,提出一种新的基于功能模块的疾病关联因子识别方法DDRFFM。此算法首先结合临床病人样本及正常样本的基因表达谱,获得差异表达基因的p-value值,并依此确定疾病关联模块;然后将疾病关联模块中的非差异表达节点作为候选节点,并通过计算疾病关联值为候选节点排序。在乳腺癌和结肠癌中,分别对几种功能模块识别算法预测的模块进行分析,发现RWRRGM算法能够预测更高比例的疾病关联模块,这也说明了RWRRGM算法能够预测更多具有生物意义的模块。另外利用文献和数据库验证DDRFFM方法分别为这两种疾病预测的Top1%和Top5%的疾病关联因子,发现DDRFFM方法具有较高的识别准确率。研究疾病关联因子识别为理解复杂疾病发病机制和寻找药物靶点提供依据。