论文部分内容阅读
基因组上存在大量的ncRNA(非编码RNA)基因,其在基因组中的含量和生物复杂性息息相关,然而迄今为止,对lncRNA(long noncoding RNA)和miRNA(microRNA)基因的进化和功能研究还不够透彻。本文针对lncRNA和miRNA基因在基因组上分布模式的演化特征及其在癌症发生发展中的作用进行了深入研究。有部分lncRNA基因与编码基因重叠(lncRNA-coding gene pair),构成一种特殊的重叠基因对。通过研究人的lncRNA-coding gene pair,我们发现lncRNA基因能促进与之重叠的编码基因的可变性剪接。另外,与非重叠的基因相比,lncRNA-coding gene pair中的lncRNA和编码基因都更容易在进化中被保留下来,且具有较高的表达水平和表达的组织特异性。lncRNA-coding gene pair的表达相关,并且其表达相关性和重叠构象、局部基因组环境和基因的进化年龄相关。比较整体的lncRNA-coding gene pair的表达相关性在癌症和正常组织中的变化特征,发现表达相关性的改变与癌症的发生发展过程密切相关。通过上述研究,我们对人类基因组中的lncRNA-coding gene pair的重叠模式的进化和共表达特征有了较为系统而全面的了解,为研究生物复杂性提供了新视角。癌症是一种异质性非常高的疾病,对癌症进行精准的诊断和治疗需要对肿瘤进行分型。我们发现lncRNA基因与其重叠的编码基因的表达变化与癌症发生发展过程有关,所以,对癌症的分型有必要考虑lncRNA基因的表达变化特征。通过分析差异表达的mRNA和lncRNA基因,我们将食管鳞癌分成了两个亚型。分析发现这两个亚型和临床上肿瘤分级之间有明显的相关性,并且具有不同的术后生存周期。在两个亚型中都表现出差异表达的编码基因的功能富集在与癌症相关的通路上,而亚型I中特异的差异表达的编码基因的功能主要富集在和食管鳞癌相关的通路上。这些结果表明分析差异表达的lncRNA基因对食管鳞癌的分子分型具有重要作用。基因复制能增加基因组的鲁棒性,在物种形成中起重要作用。为了研究多拷贝miRNA基因的进化过程,我们根据其多拷贝的形成方式将其分成了duplication,repeat和de novo三种类型。通过对序列保守性和序列差异的研究,我们发现不同形成方式的多拷贝miRNA基因在复制之后会经历不同的进化过程。被归类为duplication的多拷贝miRNA基因的两个基因所在的区域都处于快速进化中,并且这种快速进化要经历一段相当长的时间;而de novo组中只有新产生的多拷贝miRNA基因处于快速进化中,并在短时间的进化后被固定。利用单拷贝miRNA基因转录加工过程中的Dicer的剪切效率和成熟体表达量之间的关系,我们设计了模型用来预测来源于不同前体的多拷贝miRNA的表达量,发现不同类型的多拷贝miRNA基因具有不同的组织表达分化程度。虽然,在多拷贝miRNA基因同时表现出了表达组织分化和功能冗余,但是在长期进化后,多拷贝miRNA基因之间会表现出表达组织分化。比较表达组织分化和功能冗余的多拷贝miRNA基因的宿主基因的功能,发现多拷贝miRNA基因的表达分化程度与其可能参与到的生物学过程有关。通过对miRNA和lncRNA基因在基因组上分布模式的研究,加深了我们对非编码RNA基因的进化与生物多样性之间关系的认识。lncRNA基因和mRNA基因的差异表达水平在肿瘤分型中的作用研究也为之后的个性化医疗提供了新思路。