论文部分内容阅读
转录过程产生的信使 RAN前体的剪切作用在基因表达过程中扮演着至关重要的角色,因此,对剪切作用的研究具有非常重要的意义。在已测序物种中,从21个植物物种的基因组注释文件中提取了3,199,967个剪切位点。随着测序技术的日新月异,测序的精确性越来越高,成本迅速降低。以上原因使物种基因组测序迅速普及。但是,与已经测序的物种数量相比,还有更多的未测序物种。未测序物种没有完善的基因组数据,只有一定数量的表达序列标签序列。在这些未测序物种中,本研究应用EST-CDS多序列联配的方法查找剪切位点,共得到4,678,710个剪切位点。本研究结果显示,剪切位点上下游特征序列的规律在各植物物种中显示出一致性。在拟南芥中,剪切位点下游3端’第一个位点碱基出现频率最大的为 G,占所有碱基的0.49289。这一数据在水稻中为0.478398。第二个位点碱基出现频率最大的为 T,在所有碱基中占比达到0.43761,这一数据在水稻中是0.43594。在第三个和第四个位点中碱基分布倾向于平均分布,即四个碱基的出现概率呈现大小规律不明显的情况。这一规律在不编码的3’UTR区段也不明显。在剪切位点的上游,即5’端,规律和3’端同样明显。从5’到3’的位置编号为1-4,即4号位点为靠近剪切位点最近的第一个碱基。这个位点上,碱基G占有绝对优势,在所有四种碱基中的出现频率最高,达到了0.726213。这一数据在水稻中为0.69928。在3号位上,即剪切位点上游的第二个碱基位点,出现频率最大的事碱基A,频率远远大于其他三个碱基的出现频率之和。在拟南芥中,这个位点上碱基 A出现的频率为0.618294。这一数据在水稻中是0.591047。1号位和2号位,即剪切位点上游的第三个碱基和第四个碱基位点上碱基出现频率规律性逐渐减小,呈现出平均分布的倾向。以上规律在不编码的5’UTR区段也不明显。为了排除其中的假阳性结果,计算了剪切位点上下游的碱基分布频率,根据计算出的碱基分布频率构建了剪切位点打分系统。为了验证剪切位点预测的准确性,以水稻和拟南芥作为样本,在拟南芥基因组中设计内含子多态性引物,多态性引物上下游100bp设计引物。以水稻基因组为模板,进行 e-PCR扩增。结果显示,77.4%的预测结果是准确的。基于以上参考植物注释文件提取的剪切位点和非模式植物的预测,构建了一个综合的数据平台 PSJ。PSJ提供剪切位点的搜索查询和在线预测。本研究为在未测序植物中查找剪切位点提供了方法,使剪切位点的跨物种预测得以实现。