论文部分内容阅读
继人类基因组计划后,“DNA元件百科全书”计划(Encyclopedia of DNA Elements. ENCODE)的实施使人类对生命的认识又迈入了一个新纪元。它提出人类基因组蓝图是一个复杂的网络系统,单个基因、调控元件以及与编码蛋白无关的DNA序列以交叠的方式相互作用,共同控制着人类的生理活动,而不是由孤立的基因和大量的"junk DNA’’简单组成。随着ENCODE计划的逐步深入,基因组复杂的散在调控序列,大量的非编码RNA基因以及非编码区域的保守元件浮出水面。Gerstein等认为“基因”就是一个基因组上编码潜在相关联的一系列功能元件的“联合体”。人类基因组本身就是一个极其复杂的网络,无用的非编码序列实际上非常少。蛋白质编码基因只不过是众多具有特定功能的DNA序列元件中的一种。ENCODE计划还发现人类基因组中有93%的DNA都会转录成RNA,众多转录本是非编码RNA。这些转录本会发生相互作用。越来越多的研究表明内含子是一类重要生物学功能的载体,内含子的获得和缺失能影响到mRNA许多阶段的代谢过程,包括基因转录起始,mRNA前体编辑,mRNA出核,翻译和降解。内含子的剪接区域突变能够诱导很多疾病,还发现内含子中间的碱基变异尽管不影响剪切也能诱导疾病。众所周知siRNA通过完全互补的方式与目标基因结合,导致目标基因表达沉默;miRNA通过不完全但高度互补的方式与目标基因结合,抑制目标基因的表达。内含子作为一类非编码RNA与mRNA一起转录,许多间接证据暗示,剪接后的内含子和相应mRNA序列应该存在相互作用,并承担重要的生物学功能。基于这一思路,本文主要研究了内含子与其相应编码序列或mRNA的相互作用规律,并对其机制性的问题进行了探讨。主要研究内容如下:1.分析了酵母,线虫和果蝇核糖核蛋白基因内含子与相应编码序列之间的最佳匹配区域在内含子序列上的分布。结果发现,内含子中部非保守区域与编码序列有较高的匹配频率而两端剪接区域与编码序列的匹配程度较低;短内含子与编码序列有一个最佳匹配区域而长内含子有两个最佳匹配区域;第一内含子、中间内含子和最后内含子组的最佳匹配频率分布是存在差异的。长内含子前一个最佳匹配区域序列的D2值最大,甚至超过了编码序列,后一个区域序列的D2值最小。短内含子最佳匹配区域序列的D2值与编码序列的相似。结果表明内含子中部非保守序列是一类有组织的序列,也揭示了内含子与其编码序列是存在相互作用的。2.分析了酵母,线虫和果蝇核糖核蛋白基因内含子与相应编码序列的最佳匹配频率在编码序列上的分布。结果发现,在编码序列上有多个最佳匹配区域和禁配区域。与组分约束下的随机序列和匹配频率的平均值相比,这些最佳匹配区域和禁配区域的特征非常显著。坐落在编码序列长度的约10%和80%处的两个禁配区域是非常保守的。我们认为这些禁配区域是一些蛋白因子的特异结合区域,值得深入研究。3.在全基因组水平上,分析了人类等9个模式生物蛋白质编码基因的内含子与其相应mRNA的最佳匹配频率分布。发现,mRNA序列上最佳匹配频率分布在这9个模式生物中呈现出高度的一致性或普适性。mRNA非翻译区域(UTR)出现峰值分布,在3’UTR中尤为明显,编码序列(CDS)中的匹配频率相对较低。表明内含子与mRNA的UTR区域有最强的相互作用偏好,尤其是3’UTR。仔细分析了一些功能位点附近的匹配频率分布,发现翻译起始位点和翻译终止位点附近序列上以功能位点为界匹配频率发生显著的改变;外显子连接处的匹配频率相对较低。分别分析了九个模式生物中编码序列、3’UTR、5’UTR和内含子序列上的最佳匹配片段GC含量分布。不同序列GC含量的分布中心不同,但最佳匹配片段的GC含量表现出特殊的分布形式。首先GC含量的分布中心均低于其它三类,其次GC含量的分布范围非常广泛,几乎覆盖了其它序列的分布。表明内含子与mRNA之间的相互作用主要是以弱键为主,即AT匹配,但还兼顾了高GC的匹配。4.分析了所有内含子中最佳匹配片段的序列特征。发现9个物种中的最佳匹配片段的配对率分布高度一致,主要分布在60%-80%之间。最佳匹配片段长度分布的最可几值在低等真核生物中约为20bp,在高等真核生物中约为30bp。这些结论与在核糖核蛋白基因中的到的结果是一致的。在配对率分布中出现的一些峰值对所有生物是保守的,揭示了最佳匹配片段构成的内在机制。总之,各种分析结论均支持内含子与mRNA之间存在相互作用的论点。mRNA序列上最佳匹配频率分布和最佳匹配片段的配对率分布呈现高度的保守性和普适性。这说明了内含子中部序列存在丰富的功能单元,这些功能单元与mRNA中的各类序列存在结构上的协同关系。