论文部分内容阅读
小的非编码RNA的长度大约为20-30个核苷酸,它在动物的各种发育过程中,例如胚胎发育、神经发育、肌肉发育、生殖发育等起到关键的作用。nicroRNA (miRNA)和Piwi-interacting RNA (piRNA)是两种重要的小的非编码RNA。niRNA和piRNA在生物学起源和功能等方面都存在显著差异。miRNA的长度约为21到25个核苷酸,与Argonaute蛋白家族中的Ago子家族蛋白结合,通过与靶基因mRNA碱基配对引导沉默复合体(RISC)降解mRNA或阻碍其翻译,从而调控基因表达。piRNA的长度约为24到31个核苷酸,与Argonaute蛋白家族中的Piwi子家族蛋白结合,通过沉默转座单元,从而参与维持生殖细胞的功能和生殖细胞中基因组的完整性。随着二代测序技术的不断发展和进步,使得人们对小RNA转录组的观察达到了前所未有的敏感度。然而,快速、准确地分析深度测序数据仍然是一个很大的挑战。如何从高度异质性的短读段中预测新的miRNA和piRNA还是一个棘手和有趣的问题。尽管目前人们在这方面做了很多努力,但是至今仍没有一款为斑马鱼量身定做的具有物种特异性的小RNA测序数据分析平台。基于斑马鱼已知的miRNA前体,8个新特征以及57个已报道的序列和结构特征,我们设计了一个斑马鱼特异性的miRNA前体预测工具ZmirP。用除一法检验和胛折交叉检验来评估ZmirP的性能和鲁棒性。与同类算法在斑马鱼的数据集上进行性能比较,ZmirP得到较高的敏感度(95.64%)和特异性(98.84%),性能上优于其它已有工具。与同类算法在人类独立测试集上比较,ZmirP与其它工具是可比拟的。piRNA的计算法可以分为两大类:piRNA簇识别和piRNA转录本识别。到目前为止,proTRAC和piRNApredictor分别是piRNA簇识别和piRNA转录本识别的唯一工具。首先,我们用piRNA和gsRNA作为检索关键词,在PubMed文献数据库中进行检索获得文献,通过文献阅读方法从文献中搜集实验证实的piRNA。基于位置特异性分值和Z曲线的特征,设计了一个新的piRNA转录本预测工具pirP (piRNA prediction)。用除一法检验和n折交叉检验来评估pirP的性能和鲁棒性。基于实验验证的piRNA数据集,pirP得到较高的敏感度和特异性,性能上优于piRNApredictor。接着,我们开发了斑马鱼特异性的小RNA测序数据分析平台CSZ(Characterization of small RNAome for zebrafish)。首先,把总的读段比对到基因组上,再把能比对到基因组的读段依次比对到miRBase、Rfam、重复序列、RefSeq mRNAs和piRNABank中,从而把匹配读段依次分类为miRNA、rRNA、tRNA、 snRNA/snoRNA、重复序列、mRNA和piRNA。由于rRNA、tRNA、snRNA/snoRNA以及piRNA中的一些RNA可以被注释为重复序列,如果不考虑这种情况,势必会严重低估了这几种RNA的表达量。因此,CSZ首先把重复序列中注释为rRNA、tRNA、 snRNA/snoRNA的读段召回到它们自己的分类中,然后再从剩余的重复序列中营救出piRNA。最后剩下的未知序列输入到MIREAP和miRDeep2中用于预测新的miRNA,因为MIREAP和miRDeep的预测结果很多,所以用ZmirP对其预测结果进行进一步过滤。在脊椎动物早期发育过程中,各种小的非编码RNA,例如miRNA和piRNA动态地表达,协调共同完成了从母源到受精卵的过渡(Maternal-to-zygotic transition, MZT)。斑马鱼小RNA组的系统分析将有助于理解胚胎发育过程中小RNA的调控作用。首先利用小RNA测序技术对斑马鱼早期胚胎发育的八个不同阶段的胚胎进行测序,获得小RNA的表达谱。然后利用新开发的计算平台CSZ对测序数据进行综合分析,发现:随着发育的进行,小RNA种类从piRNA过渡到miRNA。还观察到:在发育过程中,miRNA的丰度和多样性逐渐增加,但是丰度的增加比多样性增加更剧烈;相反地,piRNA的丰度和多样性逐渐减少。为了证实计算的精度,挑选四个已知miRNA进行qRT-PCR实验验证。此外,还预测了25个高可信度的、新的miRNA。随机挑选3个进行Northern blots实验验证,其中两个得到证实。总地来说,我们揭示了斑马鱼早期发育过程中小RNA种类从piRNA过渡到miRNA的现象。这两种不同类型的小RNA在丰度和多样性上显示出不同的表达动态。我们的研究不仅更好地理解了斑马鱼早期发育过程中小RNA的调控,而且提供了一个小RNA-seq数据分析平台。