论文部分内容阅读
随着科学技术的快速发展,生物医学研究利用网络医学作为工具系统地探索复杂疾病的分子机制,不断地涌现了疾病各个方面模式的探索研究,并以此来揭示复杂疾病相关生物显著标志物,从而找到疾病的药物靶标。与此同时,高通量技术快速发展和应用带来了丰富多组学数据的同时,也带来了对这些异质数据整合分析挑战。由于癌症复杂性,人们认识其致病机理变得困难,这就需要借助生物信息工具将生物问题转化为如何从多组学数据中分析、探索和抽取疾病相关模式,从而阐明疾病的致病机理。本研究集中在基于生物网络结合多组学数据挖掘复杂疾病相关致病模式,并分析相关模式,为疾病发现和治疗提供支持。本文工作和创新分别在疾病基因层面、通路层面和调控网络层面上展开研究,内容如下:1.针对疾病基因挖掘问题,本文提出了利用网络特征结合生物特性来挖掘致病基因,通过定义具有变化关系即差异甲基化和差异表达模式的网络模体得分指标,挖掘一致变化模式的网络模体,从而识别疾病相关基因。结肠直肠癌数据集上的验证结果表明在分类性能上该方法优于现有的方法;鉴别出的网络模体和预测的基因与结直肠癌的发生高度相关,功能富集癌症标志物。2.针对癌症驱动基因挖掘问题,本文提出了利用基因突变和基因表达之间的相关关系,突变基因与患者异构特性之间的关系,建立网络,结合网络扩散步骤和凝聚排序步骤算法进行挖掘。通过应用于三个癌症数据集(多形性成胶质细胞瘤、卵巢癌、乳腺癌),该方法在一些评价指标上明显优于对比的方法。同时,该方法分别预测58,55,13个潜在的驱动基因,其中大多数是已知的驱动基因,其余的基因通过功能分析和共同引用分析进一步证实与癌症相关联。尤其在低频突变的驱动基因识别上该方法获得较好的效果。3.针对癌症失调通路模式挖掘分析问题,本文提出了通过整合多组学数据采用优策略方法识别失调通路,并将该方法应用于TCGA中乳腺浸润性癌(BRCA)数据(DNA甲基化,DNA拷贝数,体细胞突变和基因表达谱),分别识别了该疾病亚型上的失调通路。结果表明不同亚型前30个失调通路显示出共同和特异的失调模式,同时还识别了特异亚型通路中在遗传和表观遗传方面失调的44个差异表达基因,文献验证和功能富集分析进一步验证了它们与BRCA高度相关。该方法在多组学数据整合识别失调的通路和疾病基因方面提供了新的思路。4.针对细胞周期基因调控网络构建与分析问题,本文提出了整合多平台转录数据样本,利用动态级联方法构建疾病各个发病阶段与细胞周期相关的转录因子调控网络。该方法应用于肺癌亚型-肺腺癌表达数据,构建了5个阶段的动态基因调控网络,进一步通过网络富集分析、功能分析、文献验证以及相关模式分析验证了肺腺癌恶化过程网络构建的可行性。