论文部分内容阅读
信使RNA的选择性剪接是真核生物有别于原核生物的基本特征之一。选择性剪接使单个基因产生多种转录物,是多细胞高等真核生物蛋白质多样性和功能复杂性的主要机制。mRNA前体的选择性剪接具有组织发育阶段性、特异性等特征,在系统发育、分化和癌变过程中发挥着非常重要的作用。论文首先对人类基因组中剪接位点序列与假剪接位点序列的保守性及空间结构特征进行了统计分析;其次根据剪接位点序列的碱基联体的保守性特征及剪接位点上下游区域的空间结构特征,构建剪接位点的信息向量,利用支持向量机对剪接位点的供体端和受体端进行了预测。对于供体端,5-fold交叉检验方法的敏感性、特异性及总体预测精度都达到了92.30%以上,相关系数为0.69,3-way data,split检验方法的敏感性、特异性及总体预测精度达到了91.96%以上,相关系数为0.68;对受体端的5-fold交叉检验方法的敏感性、特异性及总体预测精度都达到了90.53%以上,相关系数为0.63,3-way data split检验方法的敏感性、特异性及总体预测精度达到了89.62%以上,相关系数为0.62。
选择性剪接位点和组成性剪接位点在序列水平上没有明显的差异,而且选择性剪接位点事件中每一对选择性剪接位点之间的距离都很近,所以选择性剪接位点事件预测工作是理论预测工作的一项挑战。论文中以位置关联权重矩阵和DNA结构信息参数作为剪接位点信息输入向量,应用支持向量机对选择性剪接位点和组成性剪接位点做分类。对于供体端剪接位点,独立检验集的敏感性、特异性及总体预测精度都在73.30%以上,相关系数为0.47;对受体端剪接位点,独立检验集的敏感性、特异性及总体预测精度都在74.57%以上,相关系数为0.49。此结果要明显的好于最近的文献中的预测结果,表明我们的方法可以作为选择性剪接位点识别问题的工具之一。