论文部分内容阅读
真核生物mRNA的3’-UTR对基因表达具有十分重要的调控作用,其主要特征是在转录后的mRNA前体3’末端分裂处(poly(A)位点)加入一串腺嘌呤尾巴,这是mRNA成熟过程中的一个关键步骤,称为多聚腺苷化(polyadenylation,简称poly(A))。Poly(A)对mRNA的稳定性、可翻译性及从核到细胞质的运输性都有决定性作用,并且是基因表达调控的一个枢纽。在基因组分析中,对poly(A)位点的正确识别有助于确定基因编码的终止位置,对分析基因的转录过程及探索基因表达的调控机制都起着十分重要的作用。哺乳动物poly(A)位点信号比较保守,AAUAAA所占比例达约55%左右。而植物poly(A)的顺式元件保守性差,最佳特征序列AAUAAA也仅占总数的10% ,同时普遍存在多位点现象。因此目前辨识植物poly(A)位点的机制完全依赖于对带有poly(A)尾巴的表达序列标签的识别。然而,由于表达方式的不同及EST数据的不完整性,许多poly(A)位点无法被明确地识别出来,甚至在许多情况下被错误标识。至今为止,国内外相关文献绝大多数都是针对动物poly(A)位点进行研究,而对于植物poly(A)位点,至今尚未出现除应用生物实验以外的识别方法的正式文献报道。本文在“植物poly(A)位点识别研究课题组”的原有模型的基础上,进行模式植物拟南芥poly(A)位点的特征提取和识别算法研究。首先,使用基于熵的算法及熵值分析法对poly(A)位点上下游周围序列进行特征提取,并对采用支持向量机的位点分类方法进行研究。然后以提取出的特征为基础,改进原模型,加入一阶异构马尔可夫子模型,改进分值公式,并将位点识别范围由TA和CA两种模式扩展到所有可能的双联子情况。同时将HMM标定技术引入GHMM,解决了模型的计算精度问题。为方便多位点序列的测试,编制了EST数据集多位点判别整合程序。最后将原有模型与上述改进相结合,构建了poly(A)位点计算机识别系统:Poly(A)Sleuth(简称PAS)。应用PAS对大量mRNA序列进行位点识别实验,实验数据表明,PAS识别的敏感度和特异度的最优组合分别由原模型的0.81和0.84提高到0.88和0.91,达到可以有效辅助生物实验进行位点辨识的水平,更重要的是,PAS能较准确地对突变后的poly(A)位点的使用效率提供量化评估。