论文部分内容阅读
RNA是一类重要的生物大分子,对RNA二级结构的研究是当今计算分子生物学的一个前沿课题。RNA单链由四种碱基(A、C、G、U)排列组成,RNA二级结构是指由RNA单链通过自身回折而形成部分碱基配对和单链交替出现的茎环结构,当RNA单链中碱基出现交叉配对现象时就构成假结。RNA的功能与其二级结构密切相关。
本文采用随机文法的方法预测RNA的二级结构。随机文法方法把RNA序列看成是具有一定语法规则的语句,通过这些语法规则来分析RNA序列中存在的碱基配对关系,也就是它的语义,从而得到该序列的二级结构。由于它是一种基于已有序列的先验知识的方法,需要拥有一定数量的相关序列样本,而且需要确保这些序列具有某些一致的二级结构和一些共同的基本结构单元。这样就能通过一种概率模型,把序列样本所具有的保守二级结构的统计信息加以利用,使预测结果具有很高的精度。通过扩展随机上下文无关文法使这种方法能考虑RNA二级结构中假结的存在,预测结果将更加真实,而单纯的最小自由能方法是无法预测假结的。本文提出了一种语法二次分析的预测方法,先采用词条方法对RNA二级结构进行预处理,将RNA序列划分成词条结构,再使用随机文法模型利用已获得的词条结构信息识别出各种RNA的二级结构。