论文部分内容阅读
长非编码RNA(lncRNA)是一类不编码蛋白质的非编码RNA,它们参与了很多生物过程,且在其中发挥着重要作用。不仅如此,lncRNA还跟疾病的发生与发展有着密切的关联。因此,lncRNA的研究受到了业界的广泛关注,并成为遗传学研究的热点。挖掘与疾病关联的lncRNA将为复杂疾病如癌症的发现与诊断治疗提供新的契机。然而,从上万条lncRNA中通过实验手段筛选与疾病关联的lncRNA分子,将耗费巨大的人力和物力,给研究带来巨大挑战。借助计算方法挖掘出与癌症关联的lncRNA可以极大地缩小实验筛查的范围,并为生物实验提供指导。全基因组关联研究(GWAS)是复杂疾病和性状遗传研究的有力工具。它旨在检测与性状变异相关的单核苷酸多态性(SNP)。通过集成GWAS数据与生物网络,基于网络的分析方法和技术开展GWAS数据的深度挖掘,研究各种人类疾病或性状的基因组关联信息,挖掘与复杂疾病关联的基因包括lncRNA,是目前一个新兴的研究领域。已有研究成果表明,网络辅助分析可以增强我们对候选基因和生物标记的解释和划分优先等级。本文集成基因共表达网络与GWAS数据,构建携带SNP信息的异质网络,提出基于网络的计算方法挖掘与复杂疾病关联的基因包括lncRNA,得到与疾病关联的子网络,并进一步筛选出与疾病关联的lncRNA,为疾病关联基因的筛选提供了有力的支撑。通过GTEx Portal数据库获得编码基因与lncRNA的表达数据,基于复杂网络的聚类特性分析,构建了合理的编码基因-lncRNA异质网络。将与癌症关联的SNP信息转换成异质网络中对应节点的权重信息,从而得到一个边与点均带权重的网络。将识别与疾病关联的基因问题首先转换成该网络中发现与疾病关联的子网络,该问题对应的优化问题可以通过最大流/最小割方法予以求解。采用Push-Relabel算法得到最小割集,作为与疾病关联的子网络,基于该子网络可以进一步筛选与疾病关联的基因包括lncRNA。本文通过以下几个方面对该方法及其结果进行了验证。首先基于GO功能注释与KEGG富集分析来验证所挖掘子网络的生物学功能,并进一步通过已有数据库以及文献来验证子网络中的lncRNA与疾病之间的关联性。针对乳腺癌的分析结果表明,子网络中包含与乳腺癌高度关联的信息,其中10个lncRNA与乳腺癌的关联性已被其他独立实验验证。位于lncRNA CCAT2中的SNP(rs6983267(G/T))的相关预测信息与已有文献报道结果一致。针对前列腺癌的分析结果表明,与前列腺癌相关的子网络包含4个lncRNA,其关联关系得到其他独立实验证实。总之,本文所提出的研究方法与技术,取得了良好的预测结果,有望在癌症与基因的关联研究中,发现新的与癌症高度关联的lncRNA分子,挖掘潜在的lncRNA生物标记,对探索SNP对lncRNA的影响以及lncRNA与疾病之间的关联有着重要意义。