论文部分内容阅读
非编码RNA在细菌、真菌、哺乳动物等许多生物体的生命活动中发挥着极其广泛的调控作用,小干涉RNA(small interfering RNA,siRNA)是一种重要的菲编码RNA,作为介导RNA干涉的中间体,能够以同源互补序列的mRNA为标靶降解特定的mRNA,从而达到抑制基因表达的目的。不同的小干扰RNA的抑制效率相差很大。
本论文针对siRNA效率预测问题,以573条具有不同抑制效率的siRNA序列作为研究对象,提取结合序列碱基频率、碱基位置和热力学参数的联合特征,提出了一种基于支持向量机预测方法,预测准确率达到74%。我们采用了ROC曲线与以往基于序列特征的打分算法进行比较,得到了最大的曲线积分面积,AUC值达到0.77,优于以往任何一种打分算法。
为了辅助RNA干扰技术的研究者设计出高效的siRNA片段,我们将前面研究得到的基于支持向量机的优化算法模型应用到在线平台中,设计并建立了siRNA辅助设计系统"SiRNA Designer"。用户可以通过网上提交,快速准确地得到需要的高效siRNA,该系统为研究人员节省大量重复性试验提供了可能。在该系统中,用户提交目标基因的mRNA序列,系统通过单步扫描和并行计算,筛选出可以抑制该基因表达的高效siRNA的反义链序列。在我们的筛选结果与其它算法不一致的情况下,系统还会并给出其它算法(Reynolds、Ui-Tei、Hsieh、Amarzguioui)相应的评分值,供用户参考与选择。
微小RNA(microRNA,miRNA)可在转录后水平或翻译水平调节基因表达。miRNA前体(pre-miRNA)作为miRNA成熟前的存在形式,对发现新的。miRNA至关重要。在本章中,我们首次将随机森林理论应用到miRNA前体预测问题中,结合miRNA前体序列的结构和能量特征,提出了准确率高达91.29%的预测算法,同时特异性和敏感度也达到较高水平,分别为93.21%和89.35%。此外,我们还对影响miRNA前体的34种特征进行了重要度分析,结果表明打散序列自由能差异显著性P及最小自由能是区分miRNA前体和普通发夹结构序列的重要特征,miRNA前体需要稳定的二级结构。