论文部分内容阅读
随着精准医学概念的提出,癌症非编码RNA标志物成为近年来研究的热点问题。其中,微小 RNA(MicroRNA,miRNA)和长链非编码 RNA(Long non-coding RNA,lncRNA)在癌症演化过程中发挥重要功能。特别地,lncRNA可以作为竞争性内源RNA(Competing endogenous RNA,ceRNA)与 miRNA 相互作用调控靶基因表达。在大数据和生物医学信息学时代,计算机辅助生物标志物识别逐渐成为一种新兴的研究方式。基于多元生物分子网络分析,有利于从系统生物学角度寻找癌症等复杂疾病发生发展过程中的驱动或关键因素,推动疾病的精准诊断和个性化治疗。本论文首先系统综述计算机辅助生物标志物识别的最新研究进展,包括数据资源、计算模型和相关应用等。研究发现,大多数生物信息学模型缺少普适性的理论或规则指导。由于数据和样本的异质性,某些机器学习模型中“训练-测试”的模式往往导致过拟合的结果。针对以上问题,我们整合不同来源的“miRNA-靶标”关系数据,分别构建miRNA-mRNA二元和lncRNA-miRNA-mRNA三元网络,分析已报道癌症miRNA和lncRNA标志物的网络结构和生物功能特征。由于健康到疾病以及疾病的阶段发展可以抽象为某一生物状态向另一种状态转变的过程,相比较疾病相关因子,生物标志物能够指示不同生物过程中系统状态的动态变化。基于这种观点,我们进一步关注网络中的脆弱结构,通过构建系统生物学模型预测癌症miRNA、lncRNA分子标志物。结合课题组的研究基础,我们选择前列腺癌及其转移作为主要的应用和研究对象。目前,临床转移仍然是影响癌症患者预后和生存的主要原因,因此,寻找前列腺癌转移的miRNA、lncRNA标志物具有重要意义。基于网络的子结构分析,研究表明,miRNA-mRNA网络中某些mRNA可以被唯一的miRNA独立调控,我们将这种独立调控特征定义为miRNA的单线调控模式。结合统计检验结果,作为标志物的miRNA具有显著强的单线调控mRNA的能力。由于单线调控是网络中一类特殊的调控模式,相比较多线协同调控,单线调控结构更加脆弱,它们的异常可能导致系统层次的功能紊乱,从而造成生物状态的改变。因此,该结构特征可以作为miRNA标志物识别的重要理论依据。在此基础上,通过miRNA靶基因的网络结构和生物功能分析,我们发现miRNA标志物能够调控和单线调控较多的转录因子基因。据此,我们整合miRNA、mRNA表达谱数据,提取前列腺癌转移特异的miRNA-mRNA子网络,构建并优化生物信息学模型,寻找前列腺癌转移相关的miRNA标志物。结果表明,miR-204-5p、miR-101-3p、miR-145-5p、miR-198和miR-152可以作为潜在的分子标志物。接下来,我们将上述理论拓展至miRNA介导的三元网络,结合ceRNA假说,进一步研究lncRNA-miRNA-mRNA网络中miRNA的调控以及lncRNA的竞争规律。相比较其它miRNA,参与lncRNA和mRNA竞争的miRNA具有显著强的调控能力,能够调控更多的转录因子基因、必需基因、管家基因和肿瘤相关基因。同时,网络中存在某些miRNA单线调控mRNA、lncRNA以及lncRNA竞争较多miRNA的情况。基于统计学证据,我们构建新的系统生物学模型预测、筛选前列腺癌转移相关的miRNA、lncRNA单个和组合标志物。研究发现,前列腺癌转移特异的lncRNA-miRNA-mRNA子网络中,miR-23b-3p、miR-204-5p、miR-26b-5p、miR-27b-3p、miR-145-5p、miR-29b-3p、miR-143-3p、miR-130a-3p、miR-363-3p、miR-218-5p、miR-30c-5p、miR-101-3p 以及XIST、CTA-204B4.6、HCG18、TUG1、MALAT1具有显著强的调控或竞争能力。同时,考虑到mRNA的生物学功能,这些分子可以形成三元lncRNA-miRNA-mRNA组合标志物指示前列腺癌的发展和侵袭状态。生物信息学分析结果表明,候选标志物参与前列腺癌发展和转移的重要信号过程,如前列腺癌、TGF-β通路等。通过细胞系qRT-PCR实验验证,相比较原发未转移细胞22RV1,候选分子在转移性前列腺癌细胞LNCaP、PC3或DU145中具有显著的表达差异。通过比较分析,我们发现不同版本模型预测结果的一致性较好,特别地,共同预测到的miR-204-5p、miR-145-5p和miR-101-3p在转移性前列腺癌细胞中均显著下调,在一定程度上体现出它们的功能重要性。同时,新的模型预测精度更高、功能更强,表明模型构建和改进的合理性和可靠性。本论文基于多元生物网络分析,从网络的结构和功能角度提出miRNA、lncRNA标志物识别的理论依据,构建癌症miRNA、lncRNA标志物识别的系统生物学模型,发现前列腺癌转移关键的miRNA、lncRNA信号。本论文的相关成果适用于其它癌症以及复杂疾病的生物标志物研究,具有重要的理论和临床意义。